論文の概要: UniREditBench: A Unified Reasoning-based Image Editing Benchmark
- arxiv url: http://arxiv.org/abs/2511.01295v1
- Date: Mon, 03 Nov 2025 07:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.156261
- Title: UniREditBench: A Unified Reasoning-based Image Editing Benchmark
- Title(参考訳): UniREditBench: 統一推論ベースの画像編集ベンチマーク
- Authors: Feng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang,
- Abstract要約: この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
- 参考スコア(独自算出の注目度): 52.54256348710893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multi-modal generative models have driven substantial improvements in image editing. However, current generative models still struggle with handling diverse and complex image editing tasks that require implicit reasoning, underscoring the need for a comprehensive benchmark to systematically assess their performance across various reasoning scenarios. Existing benchmarks primarily focus on single-object attribute transformation in realistic scenarios, which, while effective, encounter two key challenges: (1) they largely overlook multi-object interactions as well as game-world scenarios that involve human-defined rules, which are common in real-life applications; (2) they only rely on textual references to evaluate the generated images, potentially leading to systematic misjudgments, especially in complex reasoning scenarios. To this end, this work proposes UniREditBench, a unified benchmark for reasoning-based image editing evaluation. It comprises 2,700 meticulously curated samples, covering both real- and game-world scenarios across 8 primary dimensions and 18 sub-dimensions. To improve evaluation reliability, we introduce multimodal dual-reference evaluation, providing both textual and ground-truth image references for each sample assessment. Furthermore, we design an automated multi-scenario data synthesis pipeline and construct UniREdit-Data-100K, a large-scale synthetic dataset with high-quality chain-of-thought (CoT) reasoning annotations. We fine-tune Bagel on this dataset and develop UniREdit-Bagel, demonstrating substantial improvements in both in-domain and out-of-distribution settings. Through thorough benchmarking of both open-source and closed-source image editing models, we reveal their strengths and weaknesses across various aspects.
- Abstract(参考訳): マルチモーダル生成モデルの最近の進歩は、画像編集の大幅な改善をもたらした。
しかしながら、現在の生成モデルは、暗黙の推論を必要とする多様で複雑な画像編集タスクの処理に苦慮しており、様々な推論シナリオでそれらのパフォーマンスを体系的に評価する包括的なベンチマークの必要性を強調している。
既存のベンチマークは、現実的なシナリオにおける単一オブジェクト属性変換に重点を置いており、これは効果はあるものの、2つの重要な課題に直面する。(1) マルチオブジェクトの相互作用を概ね見落とし、そして、現実のアプリケーションで一般的なヒューマン定義ルールを含むゲームの世界シナリオ、(2) 生成された画像を評価するためのテキスト参照のみに依存しており、特に複雑な推論シナリオにおいて、体系的な誤判断につながる可能性がある。
そこで本研究では、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
評価信頼性を向上させるため,本研究では,サンプル評価毎にテキストと接地真実画像の両方の参照を提供するマルチモーダルデュアル参照評価を導入する。
さらに、自動マルチシナリオデータ合成パイプラインを設計し、高品質なチェーン・オブ・シークレット(CoT)推論アノテーションを備えた大規模合成データセットUniREdit-Data-100Kを構築する。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
オープンソースとクローズドソースの両方の画像編集モデルの徹底的なベンチマークを通じて、さまざまな側面におけるその強みと弱点を明らかにする。
関連論文リスト
- MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - Why Settle for One? Text-to-ImageSet Generation and Evaluation [72.55708276046124]
Text-to-ImageSet (T2IS) の生成は,ユーザ命令に基づいて,さまざまな一貫性要件を満たすイメージセットを生成することを目的としている。
トレーニング不要なフレームワークである$textbfAutoT2IS$を提案する。
また,本手法は,多くの未探索現実世界の応用を可能にする能力を示し,その実用的価値を実証する。
論文 参考訳(メタデータ) (2025-06-29T15:01:16Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing [23.512687688393346]
ICE-Benchは、画像生成モデルを厳格に評価するために設計された包括的なベンチマークである。
評価フレームワークは、6次元にわたる画像生成能力を評価する。
既存の世代モデルを徹底的に分析し、ベンチマークの難易度と現在のモデル能力と実世界の世代要件のギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-18T17:53:29Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。