論文の概要: GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2505.11493v1
- Date: Fri, 16 May 2025 17:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.787109
- Title: GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing
- Title(参考訳): GIE-Bench:テキストガイド画像編集のための基礎的評価を目指して
- Authors: Yusu Qian, Jiasen Lu, Tsu-Jui Fu, Xinze Wang, Chen Chen, Yinfei Yang, Wenze Hu, Zhe Gan,
- Abstract要約: テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
- 参考スコア(独自算出の注目度): 60.66800567924348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.
- Abstract(参考訳): 自然言語命令による画像の編集は、視覚的コンテンツを修正する自然な表現方法となっているが、そのようなモデルの性能を評価することは依然として困難である。
既存の評価アプローチは、精度に欠けるCLIPのような画像-テキスト類似性メトリクスに依存することが多い。
本研究では,テキスト誘導画像編集モデルを2つの重要な側面に沿って,より基礎的な方法で評価するための新しいベンチマークを提案する。
i) 意図した変更がうまく適用されたかどうかを検証する自動生成された複数選択質問を通じて評価される機能的正当性
二 画像の非ターゲット領域が、物認識マスキング技術と保存スコアリングを用いて、視覚的に一貫した状態を保つことを保証する画像コンテンツ保存。
このベンチマークには、20種類のコンテンツカテゴリにわたる1000以上の高品質な編集例が含まれており、それぞれに詳細な編集指示、評価質問、空間オブジェクトマスクが注釈付けされている。
我々は,テキスト誘導画像編集における最新のフラッグシップであるGPT-Image-1を,最先端の編集モデルと比較し,人間の評価に対する自動測定値の有効性を検証した。
その結果、GPT-Image-1は命令追従精度を向上するが、しばしば無関係の画像領域を過度に修正し、現在のモデル動作における重要なトレードオフを浮き彫りにする。
GIE-Benchは、テキスト誘導画像編集をより正確に評価するためのスケーラブルで再現可能なフレームワークを提供する。
関連論文リスト
- DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。
また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文 参考訳(メタデータ) (2025-01-17T02:47:25Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。
既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。
保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。