論文の概要: Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing
- arxiv url: http://arxiv.org/abs/2606.05172v1
- Date: Thu, 16 Apr 2026 08:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.622152
- Title: Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing
- Title(参考訳): この編集は正しいか? 推論型画像編集のための多次元ベンチマーク
- Authors: Yixuan Ding, Wei Huang, Ruijie Quan, Xiaojuan Qi, Yi Yang,
- Abstract要約: 拡散に基づく画像編集は、自然言語命令の下で強い視覚的忠実性を実現している。
既存のシステムの多くは、暗黙の文脈制約を考慮せずに、サーフェス命令のレベルを引き続き運用している。
本稿では、Re-Editという、Reasoning-aware画像編集のためのベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 45.07920210103563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image editing has achieved strong visual fidelity under natural language instructions, yet most existing systems still operate at the level of surface instruction following, without reasoning about the implicit contextual constraints embedded in real user requests. This often leads to visually plausible but logically inconsistent edits. In this work, we introduce RE-Edit, a benchmark for REasoning-aware image Editing that evaluates image editing systems across five complementary reasoning dimensions: physical, environmental, cultural, causal, and referential. RE-Edit comprises 1,000 carefully curated samples, each designed such that visual plausibility alone is insufficient and correct editing requires satisfying implicit logical constraints. To support fine-grained analysis, we establish dimension-aligned evaluation criteria and conduct a comprehensive study of ten open-source and two commercial image editing models. Our results show that even advanced systems frequently struggle with implicit multi-dimensional reasoning despite producing high-quality visuals. We further present a lightweight reasoning-guided post-edit baseline as an initial exploration, illustrating how inserting explicit reasoning can help mitigate such failures in a model-agnostic manner.
- Abstract(参考訳): 拡散に基づく画像編集は、自然言語命令の下では強力な視覚的忠実性を実現しているが、既存のシステムの多くは、実際のユーザ要求に埋め込まれた暗黙的なコンテキスト制約を考慮せずに、サーフェス命令のレベルで動作している。
これはしばしば視覚的に可視であるが論理的に矛盾する編集につながる。
本研究では, 物理・環境・文化的・因果関係・参照の5つの相補的推論次元における画像編集システムの評価を行う, 推論対応画像編集のためのベンチマークであるRE-Editを紹介する。
Re-Editは、視覚的可視性だけで不十分であり、正しい編集が暗黙の論理的制約を満たすようにデザインされた1,000個の慎重にキュレートされたサンプルで構成されている。
細粒度解析を支援するため,次元整合評価基準を確立し,オープンソース10点と商用画像編集モデル2点の総合的な研究を行う。
これらの結果から,高度なシステムでさえ,高品質な視覚情報を生成するにもかかわらず,暗黙的な多次元推論に苦しむことが示唆された。
さらに,初期探索として軽量な推論誘導ベースラインを提示し,明示的推論を挿入することで,そのような障害をモデルに依存しない方法で緩和する方法について述べる。
関連論文リスト
- EditRefiner: A Human-Aligned Agentic Framework for Image Editing Refinement [76.76247443244293]
EditRefinerは、編集後の修正を人間のような認識・推論・行動評価ループとして再構成するエージェントフレームワークである。
歪み、診断精度、人間の知覚アライメントにおいて、最先端の手法を一貫して上回る。
論文 参考訳(メタデータ) (2026-05-08T09:05:08Z) - CAMEO: A Conditional and Quality-Aware Multi-Agent Image Editing Orchestrator [8.901958956012072]
条件付き画像編集は、厳密な構造制御を必要とするシナリオにおいて不可欠である。
ほとんどのアプローチは単一ステップ生成に依存します。
我々は、条件付き編集を品質に配慮したフィードバック駆動プロセスとして再構成する構造化マルチエージェントフレームワーク、textbfCAMEOを提案する。
論文 参考訳(メタデータ) (2026-04-03T16:27:02Z) - ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning [57.08352504712699]
ビデオ統合モデルは、理解と生成において強力な能力を示すが、理性に富んだビジュアル編集に苦慮している。
本稿では,Reason-Informed Video Editing (RVE)タスクを紹介する。
一つのアーキテクチャ内で生成と評価を統一するフレームワークであるReViSEを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:57:09Z) - Charts Are Not Images: On the Challenges of Scientific Chart Editing [66.38730113476677]
textitFigEditは、3万以上のサンプルからなる科学的フィギュア編集のベンチマークである。
私たちのベンチマークでは、ピクセルレベルの操作の重大な制限が示されています。
textitFigEdit をリリースすることにより,構造対応図形編集の体系的な進歩の実現を目指す。
論文 参考訳(メタデータ) (2025-11-30T06:13:48Z) - Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing [23.69189799564107]
既存の画像編集手法は、単純な編集命令をうまく処理できる。
複雑な編集命令を扱うためには、大きな言語モデル(LLM)と拡散モデル(DM)を共同で微調整する必要があることが多い。
我々は,textbfLLM textbfReasoning (CIELR) による textbfComplex textbfImage textbfEditing と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T10:06:28Z) - SpotEdit: Evaluating Visually-Guided Image Editing Methods [3.5066378196008636]
SpotEditは、視覚的に誘導された画像編集方法を評価するために設計された包括的なベンチマークである。
我々のベンチマークには幻覚の専用コンポーネントが含まれており、GPT-4oのような主要なモデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行するかを強調している。
論文 参考訳(メタデータ) (2025-08-25T16:08:57Z) - Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。
本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。
我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文 参考訳(メタデータ) (2025-04-03T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。