論文の概要: Edit Spillover as a Probe: Do Image Editing Models Implicitly Understand World Relations?
- arxiv url: http://arxiv.org/abs/2603.17876v1
- Date: Wed, 18 Mar 2026 16:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.810566
- Title: Edit Spillover as a Probe: Do Image Editing Models Implicitly Understand World Relations?
- Title(参考訳): 画像編集モデルで世界関係を過度に理解しているか?
- Authors: Guandong Li, Zhaobin Chu,
- Abstract要約: Edit spillover: モデルが編集領域外のセマンティックな関連性を持つが、特定されていないコンテンツを変更。
これは根本的な疑問を引き起こします -- こぼれは真に暗黙の世界の理解を反映しているのでしょうか?
本研究では,画像編集モデルにおける世界知識の自然な探索手段として,編集流出を再利用するシステムフレームワークであるEditSpilloverProbeを提案する。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-following image editing models are expected to modify only the specified region while keeping the rest of the image unchanged. However, in practice, we observe a pervasive phenomenon -- edit spillover: models alter semantically related but unspecified content outside the edit region. This raises a fundamental question -- does spillover reflect genuine implicit world understanding, or is it merely attention leakage? We propose EditSpilloverProbe, a systematic framework that repurposes edit spillover as a natural probe for world knowledge in image editing models. We introduce a spillover taxonomy (spatial, semantic, mixed, random), an automated detection-and-classification pipeline, and a benchmark dataset constructed from real-world Chinese text editing tasks, EditSpilloverBench. Systematic evaluation of 5 representative editing models reveals three core findings: (1) spillover rates vary dramatically across architectures, from 3.49% to 11.46%, with a 3.3x ratio; (2) absolute semantic spillover quantity reveals models' world understanding capability -- nano_banana produces the most semantic spillover (27.8 per image), while qwen_2511 has the most precise editing control but lower semantic spillover (16.3 per image), revealing a trade-off between editing control and world understanding; (3) spatial decay analysis shows spillover area density decays exponentially with distance, but the proportion of semantically relevant spillover remains constant (40%-58%), providing direct evidence that semantic spillover reflects genuine world understanding rather than spatial diffusion.
- Abstract(参考訳): 指示追従型画像編集モデルは、画像の残りの部分を変更せずに、指定された領域のみを変更することが期待されている。
しかし、実際には、我々は広範にわたる現象を観察する - 編集領域の外で意味論的に関連があるが、特定されていないコンテンツを変更したモデル。これは根本的な疑問を引き起こします -- こぼれは、真に暗黙の世界の理解を反映しているか、それとも単に注意の漏れを反映しているのか?
本研究では,画像編集モデルにおける世界知識の自然な探索手段として,編集流出を再利用するシステムフレームワークであるEditSpilloverProbeを提案する。
実世界の中国語テキスト編集タスクであるEditSpilloverBenchから構築したベンチマークデータセットを,スワップオーバー分類(空間,意味,混合,ランダム),自動検出・分類パイプラインを導入している。
1)3.49%から11.46%の絶対的なセマンティック・スポークオーバー量は、モデルの世界理解能力を明らかにする(27.8イメージ)。nano_bananaは最も正確なセマンティック・スポークオーバーを生成(27.8イメージ)し、qwen_2511は最も正確な編集制御を持つが、より低いセマンティック・スポークオーバー(16.3イメージ)を持ち、編集制御と世界理解のトレードオフを明らかにする(3.3イメージ)。
関連論文リスト
- WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark [72.07273056097722]
我々は、世界主導の画像編集を可能にするために設計されたデータセットであるtextbfWorldEditを紹介した。
WorldEditは高品質な編集サンプルで構成され、現実世界の因果論理と一致するパラフレーズの命令でガイドされる。
その結果,提案手法はGPT-4oとNano-Bananaとのギャップを著しく狭めることがわかった。
論文 参考訳(メタデータ) (2026-02-06T13:42:30Z) - Agentic Retoucher for Text-To-Image Generation [48.80766311858762]
Agentic Retoucherは階層的な意思決定駆動のフレームワークで、ポストジェネレーションの修正を人間のような知覚・推論・アクションループとして再構成する。
この設計は、知覚的証拠、言語的推論、制御可能な修正を統一された自己修正的決定プロセスに統合する。
実験により、エージェント・リタッチは知覚品質、歪みの局在化、人間の嗜好調整において、最先端の手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2026-01-05T12:06:43Z) - The Devil is in Attention Sharing: Improving Complex Non-rigid Image Editing Faithfulness via Attention Synergy [71.39358554558667]
我々は,SynPSを紹介した。SynPSは位置埋め込みとセマンティック情報を利用して,忠実な非剛性画像編集を行う手法である。
本稿では,各段階で必要な編集規模を定量化する編集計測手法を提案する。
位置と意味を適応的に統合することで、SynPSはオーバー編集とアンダー編集の両方を効果的に避ける。
論文 参考訳(メタデータ) (2025-12-16T14:08:00Z) - Charts Are Not Images: On the Challenges of Scientific Chart Editing [66.38730113476677]
textitFigEditは、3万以上のサンプルからなる科学的フィギュア編集のベンチマークである。
私たちのベンチマークでは、ピクセルレベルの操作の重大な制限が示されています。
textitFigEdit をリリースすることにより,構造対応図形編集の体系的な進歩の実現を目指す。
論文 参考訳(メタデータ) (2025-11-30T06:13:48Z) - DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection [48.00148913303519]
拡散ベースの編集は、局所画像領域の現実的な修正を可能にし、AI生成したコンテンツを検出しにくくする。
DiffSeg30kは、30kの拡散編集画像とピクセルレベルのアノテーションのデータセットで、きめ細かい検出をサポートする。
論文 参考訳(メタデータ) (2025-11-24T13:43:54Z) - SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding [46.767486063775266]
SmartFreeEditは、マルチモーダルな大規模言語モデル(MLLM)とハイパーグラフ強化のインペイントアーキテクチャを統合するエンドツーエンドフレームワークである。
SmartFreeEditの主なイノベーションは、リージョン認識トークンとマスク埋め込みパラダイムである。
Reason-Editベンチマークの実験では、SmartFreeEditが現在の最先端メソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-04-17T07:17:49Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。