論文の概要: DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
- arxiv url: http://arxiv.org/abs/2602.23622v1
- Date: Fri, 27 Feb 2026 02:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.217299
- Title: DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model
- Title(参考訳): DLEBench: インストラクションに基づく画像編集モデルのための小型オブジェクト編集能力の評価
- Authors: Shibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao,
- Abstract要約: 本稿では,IIEMの小型オブジェクト編集能力を評価するための最初のベンチマークであるDeepLookEditBenchを紹介する。
7つの命令タイプにわたる1889のサンプルからなる挑戦的なテストベッドを構築した。
これらのサンプルでは、ターゲットオブジェクトは画像領域の1%-10%しか占めておらず、部分閉塞や複数オブジェクト編集といった複雑なシナリオをカバーしている。
10個のIIEMの実証的な結果から、小規模オブジェクト編集における大きなパフォーマンスギャップが明らかとなり、この機能を前進させるための特別なベンチマークの必要性が浮かび上がっている。
- 参考スコア(独自算出の注目度): 10.609050605838805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant progress has been made in the field of Instruction-based Image Editing Models (IIEMs). However, while these models demonstrate plausible adherence to instructions and strong reasoning ability on current benchmarks, their ability to edit small objects remains underexplored, despite its importance for precise local editing and refining details in both real and generated images. In this paper, we introduce DeepLookEditBench (DLEBench), the first benchmark dedicated to assessing the abilities of IIEMs in editing small-scale objects. Specifically, we construct a challenging testbed comprising 1889 samples across seven instruction types. In these samples, target objects occupy only 1%-10% of the image area, covering complex scenarios such as partial occlusion and multi-object editing. To ensure robust evaluation on this benchmark, we propose an evaluation protocol with refined score rubrics to minimize subjectivity and ambiguity in two criteria: Instruction Following and Visual Consistency. This protocol also introduces a dual-mode evaluation framework (Tool-driven and Oracle-guided Modes) addressing the misalignment between LMM-as-a-Judge and human judgements on DLEBench. Empirical results on 10 IIEMs reveal significant performance gaps in small-scale object editing, highlighting the need for specialized benchmarks to advance this ability.
- Abstract(参考訳): Instruction-based Image Editing Models (IIEMs) の分野では重要な進歩があった。
しかし,これらのモデルでは,実画像と生成画像の両方において,正確な局所的な編集と精細化が重要であるにもかかわらず,現在のベンチマークでは,命令の順守と強い推論能力を示す一方で,小さなオブジェクトを編集する能力は未探索のままである。
本稿では,DLEBench (DeepLookEditBench) について紹介する。
具体的には、7つの命令タイプにわたる1889のサンプルからなる挑戦的なテストベッドを構築した。
これらのサンプルでは、ターゲットオブジェクトは画像領域の1%-10%しか占めておらず、部分閉塞や複数オブジェクト編集といった複雑なシナリオをカバーしている。
本ベンチマークでロバストな評価を実現するため,主観性とあいまいさを2つの基準で最小化するために,改良されたスコアルーブリックを用いた評価プロトコルを提案する。
このプロトコルはまた、LMM-as-a-JudgeとDLEBench上の人間の判断の不一致に対処するデュアルモード評価フレームワーク(Tool-driven and Oracle-guided Modes)も導入している。
10個のIIEMの実証的な結果から、小規模オブジェクト編集における大きなパフォーマンスギャップが明らかとなり、この機能を前進させるための特別なベンチマークの必要性が浮かび上がっている。
関連論文リスト
- RealDrag: The First Dragging Benchmark with Real Target Image [9.439854281295803]
textbfRealDragは、点ベースの画像編集のための最初の包括的なベンチマークであり、ペアの接地真理ターゲット画像を含んでいる。
私たちのデータセットには、さまざまなビデオソースから400以上の人間の注釈付きサンプルが含まれています。
また、Semantical Distance(SeD)、Outer Mask Preserving Score(OMPS)、Inner Patch Preserving Score(IPPS)、Directional similarity(DiS)の4つの新しいタスク特化指標を提案する。
論文 参考訳(メタデータ) (2025-12-13T11:14:03Z) - I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models [78.62380562116135]
既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。
画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
論文 参考訳(メタデータ) (2025-12-04T10:44:07Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。