論文の概要: WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark
- arxiv url: http://arxiv.org/abs/2602.07095v1
- Date: Fri, 06 Feb 2026 13:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.443669
- Title: WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark
- Title(参考訳): WorldEdit:ナレッジインフォームドベンチマークによるオープンワールドイメージ編集を目指して
- Authors: Wang Lin, Feng Wang, Majun Zhang, Wentao Hu, Tao Jin, Zhou Zhao, Fei Wu, Jingyuan Chen, Alan Yuille, Sucheng Ren,
- Abstract要約: 我々は、世界主導の画像編集を可能にするために設計されたデータセットであるtextbfWorldEditを紹介した。
WorldEditは高品質な編集サンプルで構成され、現実世界の因果論理と一致するパラフレーズの命令でガイドされる。
その結果,提案手法はGPT-4oとNano-Bananaとのギャップを著しく狭めることがわかった。
- 参考スコア(独自算出の注目度): 72.07273056097722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in image editing models have demonstrated remarkable capabilities in executing explicit instructions, such as attribute manipulation, style transfer, and pose synthesis. However, these models often face challenges when dealing with implicit editing instructions, which describe the cause of a visual change without explicitly detailing the resulting outcome. These limitations arise because existing models rely on uniform editing strategies that are not equipped to handle the complex world knowledge and reasoning required for implicit instructions. To address this gap, we introduce \textbf{WorldEdit}, a dataset specifically designed to enable world-driven image editing. WorldEdit consists of high-quality editing samples, guided by paraphrased instructions that align with real-world causal logic. Furthermore, we provide \textbf{WorldEdit-Test} for evaluating the existing model's performance on causal editing scenarios. With WorldEdit, we use a two-stage training framework for fine-tuning models like Bagel, integrating with a causal verification reward. Our results show that the proposed dataset and methods significantly narrow the gap with GPT-4o and Nano-Banana, demonstrating competitive performance not only in instruction following but also in knowledge plausibility, where many open-source systems typically struggle.
- Abstract(参考訳): 画像編集モデルの最近の進歩は、属性操作、スタイル転送、ポーズ合成などの明示的な命令を実行する際、顕著な能力を示している。
しかしながら、これらのモデルは暗黙の編集命令を扱う際にしばしば困難に直面する。
これらの制限は、既存のモデルは、暗黙の指示に必要な複雑な世界の知識と推論を扱えない統一的な編集戦略に依存しているため生じる。
このギャップに対処するために、世界主導の画像編集を可能にするために特別に設計されたデータセットである \textbf{WorldEdit} を導入する。
WorldEditは高品質な編集サンプルで構成され、現実世界の因果論理と一致するパラフレーズの命令でガイドされる。
さらに、既存のモデルの性能を因果編集のシナリオで評価するために、 \textbf{WorldEdit-Test} を提供する。
WorldEditでは、Bagelのような微調整モデルに2段階のトレーニングフレームワークを使用し、因果検証報酬を統合しています。
その結果,提案手法は GPT-4o と Nano-Banana とのギャップを著しく狭め,命令の追従だけでなく,多くのオープンソースシステムが苦戦している知識的妥当性においても競合性能を示すことがわかった。
関連論文リスト
- SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control [50.76070785417023]
スライダ編集(SliderEdit)は、細粒度で解釈可能な命令制御による連続的な画像編集のためのフレームワークである。
複数部分の編集命令が与えられたSliderEditは、個々の命令をアンタングルして、グローバルにトレーニングされたスライダとして公開する。
本結果は,連続的,構成的制御による対話的,命令駆動型画像操作の道を開くものである。
論文 参考訳(メタデータ) (2025-11-12T20:21:37Z) - SpotEdit: Evaluating Visually-Guided Image Editing Methods [3.5066378196008636]
SpotEditは、視覚的に誘導された画像編集方法を評価するために設計された包括的なベンチマークである。
我々のベンチマークには幻覚の専用コンポーネントが含まれており、GPT-4oのような主要なモデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行するかを強調している。
論文 参考訳(メタデータ) (2025-08-25T16:08:57Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。
本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。
本手法は,既存の編集方法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-23T16:54:17Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。