論文の概要: InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models
- arxiv url: http://arxiv.org/abs/2603.03657v1
- Date: Wed, 04 Mar 2026 02:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.15911
- Title: InEdit-Bench: Benchmarking Intermediate Logical Pathways for Intelligent Image Editing Models
- Title(参考訳): InEdit-Bench: インテリジェントな画像編集モデルのための中間論理パスのベンチマーク
- Authors: Zhiqiang Sheng, Xumeng Han, Zhiwei Zhang, Zenghui Xiong, Yifan Ding, Aoxiang Ping, Xiang Li, Tong Guo, Yao Mao,
- Abstract要約: InEdit-Benchは画像編集における中間経路の推論に特化した最初の評価ベンチマークである。
InEdit-Benchは、状態遷移、動的プロセス、時間的シーケンス、科学的シミュレーションの4つの基本的なタスクカテゴリをカバーする、細心の注意を要するテストケースで構成されている。
InEdit-Benchにおける14の代表的な画像編集モデルの総合的な評価により,この領域の重大な欠点と広範な欠点が明らかとなった。
- 参考スコア(独自算出の注目度): 17.680767010203308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal generative models have made significant strides in image editing, demonstrating impressive performance on a variety of static tasks. However, their proficiency typically does not extend to complex scenarios requiring dynamic reasoning, leaving them ill-equipped to model the coherent, intermediate logical pathways that constitute a multi-step evolution from an initial state to a final one. This capacity is crucial for unlocking a deeper level of procedural and causal understanding in visual manipulation. To systematically measure this critical limitation, we introduce InEdit-Bench, the first evaluation benchmark dedicated to reasoning over intermediate pathways in image editing. InEdit-Bench comprises meticulously annotated test cases covering four fundamental task categories: state transition, dynamic process, temporal sequence, and scientific simulation. Additionally, to enable fine-grained evaluation, we propose a set of assessment criteria to evaluate the logical coherence and visual naturalness of the generated pathways, as well as the model's fidelity to specified path constraints. Our comprehensive evaluation of 14 representative image editing models on InEdit-Bench reveals significant and widespread shortcomings in this domain. By providing a standardized and challenging benchmark, we aim for InEdit-Bench to catalyze research and steer development towards more dynamic, reason-aware, and intelligent multimodal generative models.
- Abstract(参考訳): マルチモーダル生成モデルは画像編集において大きな進歩を遂げ、様々な静的タスクにおける印象的なパフォーマンスを誇示している。
しかし、それらの習熟度は通常、動的推論を必要とする複雑なシナリオに拡張されず、初期状態から最終状態への多段階進化を構成する一貫性のある中間論理経路をモデル化する能力に欠ける。
この能力は、視覚操作において、より深い手続き的および因果的理解を解き放つために不可欠である。
この限界を体系的に評価するために、画像編集における中間経路の推論に特化した最初の評価ベンチマークであるInEdit-Benchを導入する。
InEdit-Benchは、状態遷移、動的プロセス、時間的シーケンス、科学的シミュレーションの4つの基本的なタスクカテゴリをカバーする、細心の注意を要するテストケースで構成されている。
さらに,より詳細な評価を可能にするため,生成した経路の論理的コヒーレンスと視覚的自然性を評価するための評価基準と,特定経路制約に対するモデルの忠実性を提案する。
InEdit-Benchにおける14の代表的な画像編集モデルの総合的な評価により,この領域の重大な欠点と広範な欠点が明らかとなった。
InEdit-Benchは、標準化された、そして挑戦的なベンチマークを提供することで、よりダイナミックで理性があり、インテリジェントなマルチモーダル生成モデルに向けた研究とステア開発を触媒することを目指している。
関連論文リスト
- From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors [62.96515611323478]
テキスト-視覚的二重思考機構を備えたエンドツーエンドフレームワークであるPhysicalcEditを紹介する。
実験の結果、PhysicEditはQwen-Image-Editよりも5.9%、知識ベース編集では10.1%改善していることがわかった。
論文 参考訳(メタデータ) (2026-02-25T10:54:46Z) - AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process [35.95284812390557]
本稿では,実世界,OCR,GUI,知識,数学の5分野にわたる適応型マルチモーダル推論のベンチマークであるAdaptMMBenchを提案する。
評価の結果,適応モード選択はモデルキャパシティに比例するが,最終的な精度から切り離されることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-02T19:00:27Z) - How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。
本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。
プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2026-02-02T09:24:45Z) - I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models [78.62380562116135]
既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。
画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
論文 参考訳(メタデータ) (2025-12-04T10:44:07Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - Modelship Attribution: Tracing Multi-Stage Manipulations Across Generative Models [37.368187232084324]
The Modelship Attribution”は、編集の順序を再現し、関連する生成モデルを特定することによって、編集された画像の進化を辿ることを目的としている。
複雑な多段階操作における様々なモデルの寄与を効果的に認識し、属性付けするためのフレームワークであるMAT(Modelship Attribution Transformer)を導入する。
論文 参考訳(メタデータ) (2025-06-03T03:45:09Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - Counterfactual Edits for Generative Evaluation [0.0]
本稿では,画素の代わりに概念に基づく合成結果の評価と説明のためのフレームワークを提案する。
我々のフレームワークは、どのオブジェクトや属性を挿入、削除、または置き換えるべきかを下記した知識ベースの偽物編集を利用する。
局所的な編集を蓄積したグローバルな説明は、モデルが合計で生成できない概念を明らかにすることもできる。
論文 参考訳(メタデータ) (2023-03-02T20:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。