論文の概要: EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing
- arxiv url: http://arxiv.org/abs/2509.13399v1
- Date: Tue, 16 Sep 2025 17:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.594114
- Title: EdiVal-Agent: An Object-Centric Framework for Automated, Scalable, Fine-Grained Evaluation of Multi-Turn Editing
- Title(参考訳): EdiVal-Agent:マルチスレッド編集の自動化、拡張性、微粒化評価のためのオブジェクト指向フレームワーク
- Authors: Tianyu Chen, Yasi Zhang, Zhi Zhang, Peiyu Yu, Shu Wang, Zhendong Wang, Kevin Lin, Xiaofei Wang, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Jianwen Xie, Oscar Leong, Lijuan Wang, Ying Nian Wu, Mingyuan Zhou,
- Abstract要約: EdiVal-Agentはマルチターン命令ベースの編集のための評価フレームワークである。
意味のあるオブジェクトを合成し、多様なコンテキスト対応の編集命令を合成する。
視覚言語モデルとオブジェクト検出器を統合して、指示に従うことを評価し、セマンティックレベルの特徴抽出器を使用してコンテンツの一貫性を評価し、人間の好みモデルを利用して視覚的品質を判断する。
- 参考スコア(独自算出の注目度): 170.71134330650796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based image editing has advanced rapidly, yet reliable and interpretable evaluation remains a bottleneck. Current protocols either (i) depend on paired reference images -- resulting in limited coverage and inheriting biases from prior generative models -- or (ii) rely solely on zero-shot vision--language models (VLMs), whose prompt-based assessments of instruction following, content consistency, and visual quality are often imprecise. To address this, we introduce EdiVal-Agent, an automated, scalable, and fine-grained evaluation framework for multi-turn instruction-based editing from an object-centric perspective, supported by a suite of expert tools. Given an image, EdiVal-Agent first decomposes it into semantically meaningful objects, then synthesizes diverse, context-aware editing instructions. For evaluation, it integrates VLMs with open-vocabulary object detectors to assess instruction following, uses semantic-level feature extractors to evaluate content consistency, and leverages human preference models to judge visual quality. We show that combining VLMs with object detectors yields stronger agreement with human judgments in instruction-following evaluation compared to using VLMs alone and CLIP-based metrics. Furthermore, the pipeline's modular design allows future tools to be seamlessly integrated, enhancing evaluation accuracy over time. Instantiating this pipeline, we build EdiVal-Bench, a multi-turn editing benchmark covering 9 instruction types and 11 state-of-the-art editing models spanning autoregressive (AR) (including Nano Banana, GPT-Image-1), flow-matching, and diffusion paradigms. We demonstrate that EdiVal-Agent can be used to identify existing failure modes, thereby informing the development of the next generation of editing models. Project page: https://tianyucodings.github.io/EdiVAL-page/.
- Abstract(参考訳): インストラクションベースの画像編集は急速に進歩しているが、信頼性が高く、解釈可能な評価はボトルネックのままである。
現在のプロトコルも。
(i) ペア化された参照画像に依存する -- カバー範囲が限られ、以前の生成モデルからのバイアスが受け継がれる -- あるいは
(II) ゼロショット視覚言語モデル(VLM)のみに依存しており、命令従順、コンテンツ整合性、視覚的品質の即時評価は不正確であることが多い。
そこで本稿では,オブジェクト中心の観点からのマルチターン命令ベースの編集のための,自動化された,スケーラブルで,きめ細かな評価フレームワークであるEdiVal-Agentを紹介する。
画像が与えられた後、EdiVal-Agentはまず意味のあるオブジェクトに分解し、その後、多様なコンテキスト対応の編集命令を合成する。
評価には、VLMとオープンボキャブラリオブジェクト検出器を統合して、指示に従うことを評価し、セマンティックレベルの特徴抽出器を使用してコンテンツ一貫性を評価し、人間の嗜好モデルを利用して視覚的品質を判断する。
VLMとオブジェクト検出器の組み合わせは,VLM単独とCLIPに基づく測定値を用いた場合と比較して,命令追従評価において人間の判断と強く一致していることを示す。
さらに、パイプラインのモジュール設計により、将来のツールをシームレスに統合し、時間の経過とともに評価精度を高めることができる。
このパイプラインを具体化したEdiVal-Benchは、9つの命令タイプと11の最先端の編集モデルをカバーするマルチターン編集ベンチマークであり、ナノバナ、GPT-Image-1、フローマッチング、拡散パラダイムを網羅している。
本研究では,EdiVal-Agentが既存の障害モードを識別し,次世代の編集モデルを開発することを実証する。
プロジェクトページ: https://tianyucodings.github.io/EdiVAL-page/
関連論文リスト
- IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。
IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文 参考訳(メタデータ) (2025-06-29T17:02:57Z) - BYO-Eval: Build Your Own Dataset for Fine-Grained Visual Assessment of Multimodal Language Models [2.526146573337397]
眼科診断に触発された新しい評価手法を提案する。
合成画像のプロシージャ生成を用いて視覚特性の制御を行う。
この診断は、系統的なストレステストときめ細かい故障解析を可能にする。
論文 参考訳(メタデータ) (2025-06-05T12:43:10Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning [56.31096024472269]
我々はDeCapBenchと、詳細なキャプションタスク用に特別に設計された新しいメトリックであるDCScoreを紹介する。
DCScoreは、反応を最小の自己充足単位に分解することで、幻覚ときめ細かい包括性を評価する。
DeCapBenchは、視覚言語モデルの既存のベンチマークを上回り、記述タスクにおけるVLMアリーナの結果と高い相関を示す。
論文 参考訳(メタデータ) (2025-03-10T22:53:56Z) - HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Analyzing Local Representations of Self-supervised Vision Transformers [34.56680159632432]
各種自己監督型視覚変換器(ViT)の比較分析を行った。
大規模言語モデルに触発されて、微調整をほとんど行わずに様々なコンピュータビジョンタスクを実行するViTの能力について検討する。
論文 参考訳(メタデータ) (2023-12-31T11:38:50Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。