論文の概要: Meta-CoT: Enhancing Granularity and Generalization in Image Editing
- arxiv url: http://arxiv.org/abs/2604.24625v1
- Date: Mon, 27 Apr 2026 15:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.132721
- Title: Meta-CoT: Enhancing Granularity and Generalization in Image Editing
- Title(参考訳): Meta-CoT:画像編集における粒度と一般化の促進
- Authors: Shiyi Zhang, Yiji Cheng, Tiankai Hang, Zijin Yin, Runze He, Yu Xu, Wenxun Dai, Yunlong Lin, Chunyu Wang, Qinglin Lu, Yansong Tang,
- Abstract要約: 単一画像編集操作を2段階分解するメタCoTを提案する。
これら5つのメタタスクのトレーニングは、他の2つの要素とともに、多様で目に見えない編集タスクにまたがる強力な一般化を実現するのに十分である。
提案手法は,21個の編集タスクに対して全体の15.8%の改善を実現し,少数のメタタスクのみをトレーニングした場合に,非表示編集タスクを効果的に一般化する。
- 参考スコア(独自算出の注目度): 46.19324346152943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multi-modal understanding/generative models have shown improved image editing performance by incorporating fine-grained understanding into their Chain-of-Thought (CoT) process. However, a critical question remains underexplored: what forms of CoT and training strategy can jointly enhance both the understanding granularity and generalization? To address this, we propose Meta-CoT, a paradigm that performs a two-level decomposition of any single-image editing operation with two key properties: (1) Decomposability. We observe that any editing intention can be represented as a triplet - (task, target, required understanding ability). Inspired by this, Meta-CoT decomposes both the editing task and the target, generating task-specific CoT and traversing editing operations on all targets. This decomposition enhances the model's understanding granularity of editing operations and guides it to learn each element of the triplet during training, substantially improving the editing capability. (2) Generalizability. In the second decomposition level, we further break down editing tasks into five fundamental meta-tasks. We find that training on these five meta-tasks, together with the other two elements of the triplet, is sufficient to achieve strong generalization across diverse, unseen editing tasks. To further align the model's editing behavior with its CoT reasoning, we introduce the CoT-Editing Consistency Reward, which encourages more accurate and effective utilization of CoT information during editing. Experiments demonstrate that our method achieves an overall 15.8% improvement across 21 editing tasks, and generalizes effectively to unseen editing tasks when trained on only a small set of meta-tasks. Our code, benchmark, and model are released at https://shiyi-zh0408.github.io/projectpages/Meta-CoT/
- Abstract(参考訳): 統一型マルチモーダル理解・生成モデルは,そのチェーン・オブ・ソート(CoT)プロセスに微細な理解を組み込むことにより,画像編集性能の向上を図っている。
しかし、CoTとトレーニング戦略のどのような形態が理解の粒度と一般化の両方を共同で強化できるのか?
そこで本稿では,(1)デコンポスタビリティ(Decomposability, Decomposability, Decomposability, Decomposability, Decomposability, Decomposability, Decomposability, Decomposability, Decomposability)という2つの特性を持つ単一画像編集操作を2段階に分解するメタCoTを提案する。
編集意図がトリプルト(タスク、ターゲット、必要な理解能力)として表現できることを観察する。
これにインスパイアされたMeta-CoTは、編集タスクとターゲットの両方を分解し、タスク固有のCoTを生成し、すべてのターゲット上で編集操作をトラバースする。
この分解により、モデルの編集操作の理解度が向上し、トレーニング中に三重項の各要素を学習し、編集能力を大幅に向上させる。
(2)一般化可能性。
第2の分解レベルでは、編集タスクを5つの基本的なメタタスクに分割する。
これら5つのメタタスクのトレーニングは、他の2つの要素とともに、多様で目に見えない編集タスクにまたがる強力な一般化を実現するのに十分である。
モデルの編集動作とCoT推論をさらに整合させるため,編集中のCoT情報をより正確かつ効果的に活用するCoT-Editing Consistency Rewardを導入する。
実験により,21個の編集タスクにまたがる全体的な15.8%の改善を実現し,少数のメタタスクのみをトレーニングした場合の未確認編集タスクを効果的に一般化することを示した。
私たちのコード、ベンチマーク、モデルはhttps://shiyi-zh0408.github.io/projectpages/Meta-CoT/でリリースされます。
関連論文リスト
- FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。
本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。
その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:57:43Z) - MIGE: Mutually Enhanced Multimodal Instruction-Based Image Generation and Editing [25.118495616895597]
MIGEはマルチモーダル命令を使ってタスク表現を標準化する統合フレームワークである。
まず、対象駆動生成を空白キャンバス上の生成として扱い、命令ベースの編集を既存の画像の修正として扱う。
MIGEは、命令ベースの主観的編集の新しいタスクにSOTAを設定しながら、主観的生成と命令に基づく編集の両面で優れている。
論文 参考訳(メタデータ) (2025-02-28T18:21:08Z) - Knowledge Editing through Chain-of-Thought [31.230769348268282]
インコンテキスト編集(In-context editing)は、世界知識を維持するために、大きな言語モデル(LLM)を新しい情報で更新する技法である。
その可能性にもかかわらず、既存のコンテキスト内知識編集手法はしばしばタスク固有である。
本研究では,リトレーニングを伴わずに,様々なタスクにまたがるLSMを柔軟かつ効率的に更新する新しい知識編集フレームワークEditCoTを提案する。
論文 参考訳(メタデータ) (2024-12-23T17:17:50Z) - DreamOmni: Unified Image Generation and Editing [76.46811926046225]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint [87.20985852686785]
本研究では,教師なし指導に基づく画像編集手法を提案する。
本稿では,編集可逆性制約 (ERC) と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
これにより、地道に編集されたイメージの必要性を回避し、実際のイメージキャプチャペアまたはイメージキャプチャインストラクショントリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。