論文の概要: SMART-Editor: A Multi-Agent Framework for Human-Like Design Editing with Structural Integrity
- arxiv url: http://arxiv.org/abs/2507.23095v1
- Date: Wed, 30 Jul 2025 20:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.727606
- Title: SMART-Editor: A Multi-Agent Framework for Human-Like Design Editing with Structural Integrity
- Title(参考訳): SMART-Editor:構造的統合によるヒューマンライクなデザイン編集のためのマルチエージェントフレームワーク
- Authors: Ishani Mondal, Meera Bharadwaj, Ayush Roy, Aparna Garimella, Jordan Lee Boyd-Graber,
- Abstract要約: SMART-Editorは、構造化(ポスター、ウェブサイト)と非構造化(自然画像)ドメイン間で構成レイアウトとコンテンツ編集を行うフレームワークである。
ローカル編集を行う従来のモデルとは異なり、SMART-Editorは2つの戦略によりグローバルコヒーレンスを保存する。
- 参考スコア(独自算出の注目度): 11.82371175788558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SMART-Editor, a framework for compositional layout and content editing across structured (posters, websites) and unstructured (natural images) domains. Unlike prior models that perform local edits, SMART-Editor preserves global coherence through two strategies: Reward-Refine, an inference-time rewardguided refinement method, and RewardDPO, a training-time preference optimization approach using reward-aligned layout pairs. To evaluate model performance, we introduce SMARTEdit-Bench, a benchmark covering multi-domain, cascading edit scenarios. SMART-Editor outperforms strong baselines like InstructPix2Pix and HIVE, with RewardDPO achieving up to 15% gains in structured settings and Reward-Refine showing advantages on natural images. Automatic and human evaluations confirm the value of reward-guided planning in producing semantically consistent and visually aligned edits.
- Abstract(参考訳): SMART-Editorは、構造化(ポスター、ウェブサイト)と非構造化(自然画像)ドメイン間で構成レイアウトとコンテンツ編集を行うフレームワークである。
ローカル編集を行う以前のモデルとは異なり、SMART-Editorは2つの戦略によりグローバルコヒーレンスを保存する。
モデルの性能を評価するために,多領域の編集シナリオをカバーするベンチマークSMARTEdit-Benchを導入する。
SMART-Editorは、InstructPix2PixやHIVEのような強力なベースラインよりも優れており、RewardDPOは構造化された設定で最大15%向上し、Reward-Refineは自然画像に利点を示す。
自動的および人的評価は、意味的に一貫性があり、視覚的に整合した編集を生成する際の報酬誘導計画の価値を確認する。
関連論文リスト
- CAL-RAG: Retrieval-Augmented Multi-Agent Generation for Content-Aware Layout Design [6.830055289299306]
CAL-RAGは、コンテンツ対応レイアウト生成のための検索拡張エージェントフレームワークである。
我々は、LangGraphを使ってフレームワークを実装し、セマンティック変数に富んだベンチマークで評価する。
その結果,検索強化とエージェント的多段階推論を組み合わせることで,拡張性,解釈性,高忠実度な解が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-27T06:09:56Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation [10.569380190029317]
TAGEは3つの積分モジュールからなる革新的な画像生成ネットワークである。
CPMモジュールは、カテゴリに依存しない属性のセマンティックディメンションを掘り下げて、それらを個別のコードブックにカプセル化する。
PSMモジュールは、CPMのTransformerアーキテクチャにシームレスに統合されるセマンティックキューを生成する。
論文 参考訳(メタデータ) (2024-10-23T13:26:19Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing [38.804508101698275]
本稿では,顔画像編集のためのS3Editorについて紹介する。
まず、S3Editorは自己学習パラダイムを採用し、セミスーパービジョンを通じてトレーニングプロセスを強化する。
次に,多様な編集要求に対応する動的ルーティング機構を備えた意味的不整合アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-04-11T20:25:26Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。