論文の概要: Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models
- arxiv url: http://arxiv.org/abs/2603.16944v1
- Date: Mon, 16 Mar 2026 08:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.286116
- Title: Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models
- Title(参考訳): Omni IIE Bench: イメージ編集モデルの実用能力のベンチマーク
- Authors: Yujia Yang, Yuanxiang Wang, Zhenyu Guan, Tiankun Yang, Chenxi Bao, Haopeng Jin, Jinwen Luo, Xinyu Zuo, Lisheng Duan, Haijin Liang, Jin Ma, Xinming Wang, Ruiwen Tao, Hongzhu Yi,
- Abstract要約: Omni IIE Benchは、実用的なアプリケーションシナリオにおいて、IIEモデルの編集一貫性を診断するために設計されたベンチマークである。
我々はOmni IIE Benchを用いた8つの主流IIEモデルの総合評価を行った。
本分析は,低セマンティックスケールから高セマンティックスケールタスクへの移行時のパフォーマンスギャップを初めて定量化する。
- 参考スコア(独自算出の注目度): 12.603176617170504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Instruction-based Image Editing (IIE) has achieved significant progress, existing benchmarks pursue task breadth via mixed evaluations. This paradigm obscures a critical failure mode crucial in professional applications: the inconsistent performance of models across tasks of varying semantic scales. To address this gap, we introduce Omni IIE Bench, a high-quality, human-annotated benchmark specifically designed to diagnose the editing consistency of IIE models in practical application scenarios. Omni IIE Bench features an innovative dual-track diagnostic design: (1) Single-turn Consistency, comprising shared-context task pairs of attribute modification and entity replacement; and (2) Multi-turn Coordination, involving continuous dialogue tasks that traverse semantic scales. The benchmark is constructed via an exceptionally rigorous multi-stage human filtering process, incorporating a quality standard enforced by computer vision graduate students and an industry relevance review conducted by professional designers. We perform a comprehensive evaluation of 8 mainstream IIE models using Omni IIE Bench. Our analysis quantifies, for the first time, a prevalent performance gap: nearly all models exhibit a significant performance degradation when transitioning from low-semantic-scale to high-semantic-scale tasks. Omni IIE Bench provides critical diagnostic tools and insights for the development of next-generation, more reliable, and stable IIE models.
- Abstract(参考訳): Instruction-based Image Editing (IIE)は大きな進歩を遂げているが、既存のベンチマークは混合評価によってタスク幅を追求している。
このパラダイムは、さまざまなセマンティックスケールのタスク間でのモデルの一貫性のないパフォーマンスという、プロフェッショナルアプリケーションにおいて重要な障害モードを曖昧にします。
Omni IIE Benchは、実用的なアプリケーションシナリオにおけるIIEモデルの編集一貫性の診断に特化して設計された、高品質で人間による注釈付きベンチマークである。
Omni IIE Benchは,(1)属性修正とエンティティ置換の共有コンテキストタスクペアからなる単一ターン一貫性,(2)セマンティックスケールを横断する連続的な対話タスクを含むマルチターンコーディネーションという,革新的なデュアルトラック診断設計を特徴としている。
このベンチマークは、コンピュータビジョンの大学院生が実施する品質基準と、プロのデザイナーが実施する業界関連レビューを取り入れた、非常に厳格な多段階人間のフィルタリングプロセスによって構築されている。
我々はOmni IIE Benchを用いた8つの主流IIEモデルの総合評価を行った。
ほぼすべてのモデルが,低セマンティックスケールから高セマンティックスケールタスクへの移行時に,顕著なパフォーマンス劣化を示す。
Omni IIE Benchは、次世代で信頼性が高く安定したIIEモデルの開発のための重要な診断ツールと洞察を提供する。
関連論文リスト
- AI-NativeBench: An Open-Source White-Box Agentic Benchmark Suite for AI-Native Systems [52.65695508605237]
我々は、Model Context Protocol(MCP)とAgent-to-Agent(A2A)標準に基づいて、アプリケーション中心でホワイトボックスのAI-NativeベンチマークスイートであるAI-NativeBenchを紹介する。
エージェントスパンを分散トレース内の第一級市民として扱うことにより,本手法は,単純な機能以上の工学的特性の粒度解析を可能にする。
この研究は、モデル能力の測定から信頼性の高いAI-Nativeシステムへの移行を導く最初の体系的な証拠を提供する。
論文 参考訳(メタデータ) (2026-01-14T11:32:07Z) - WebRenderBench: Enhancing Web Interface Generation through Layout-Style Consistency and Reinforcement Learning [24.178675410636135]
実世界のポータルサイトから収集した45.1kのWebページの大規模なベンチマークを示す。
また、最終レンダリングページからレイアウトとスタイルの整合性を測定する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2025-10-05T08:47:39Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。