論文の概要: EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits
- arxiv url: http://arxiv.org/abs/2506.09988v1
- Date: Wed, 11 Jun 2025 17:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.189263
- Title: EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits
- Title(参考訳): EditInspector: テキストガイド画像編集の評価のためのベンチマーク
- Authors: Ron Yosef, Moran Yanuka, Yonatan Bitton, Dani Lischinski,
- Abstract要約: テキスト誘導画像編集評価のための新しいベンチマークであるEditInspectorを紹介する。
我々はEditInspectorを利用して、編集評価における最先端(SoTA)ビジョンと言語モデルの性能を評価する。
以上の結果から,現在のモデルでは,編集を包括的かつ頻繁に評価することは困難であることが示唆された。
- 参考スコア(独自算出の注目度): 22.762414256693265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image editing, fueled by recent advancements in generative AI, is becoming increasingly widespread. This trend highlights the need for a comprehensive framework to verify text-guided edits and assess their quality. To address this need, we introduce EditInspector, a novel benchmark for evaluation of text-guided image edits, based on human annotations collected using an extensive template for edit verification. We leverage EditInspector to evaluate the performance of state-of-the-art (SoTA) vision and language models in assessing edits across various dimensions, including accuracy, artifact detection, visual quality, seamless integration with the image scene, adherence to common sense, and the ability to describe edit-induced changes. Our findings indicate that current models struggle to evaluate edits comprehensively and frequently hallucinate when describing the changes. To address these challenges, we propose two novel methods that outperform SoTA models in both artifact detection and difference caption generation.
- Abstract(参考訳): ジェネレーティブAIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まりつつある。
この傾向は、テキストガイドによる編集を検証し、品質を評価するための包括的なフレームワークの必要性を強調している。
そこで本稿では,テキストガイドによる画像編集評価のための新しいベンチマークであるEditInspectorを紹介する。
我々はEditInspectorを利用して、精度、アーティファクト検出、視覚的品質、画像シーンとのシームレスな統合、常識への固執、編集によって引き起こされる変化を記述できる機能など、様々な次元にわたる編集の評価において、最先端(SoTA)ビジョンと言語モデルの性能を評価する。
以上の結果から,現在のモデルでは,編集を包括的かつ頻繁に評価することは困難であることが示唆された。
これらの課題に対処するため、我々は、アーティファクト検出と差分キャプション生成の両方において、SoTAモデルを上回る2つの新しい手法を提案する。
関連論文リスト
- Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [28.904419606450876]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Improving Iterative Text Revision by Learning Where to Edit from Other
Revision Tasks [11.495407637511878]
反復的テキストリビジョンは文法的誤りの修正、読みやすさの向上や文脈的適切性の向上、文書全体の文構造の再編成によってテキスト品質を改善する。
近年の研究では、人間によるテキストからの反復的な修正プロセスにおいて、様々な種類の編集の理解と分類に焦点が当てられている。
我々は,編集可能なスパンを対応する編集意図で明示的に検出することにより,有用な編集を反復的に生成するエンド・ツー・エンドテキスト・リビジョン・システムの構築を目指している。
論文 参考訳(メタデータ) (2022-12-02T18:10:43Z) - Understanding Iterative Revision from Human-Written Text [10.714872525208385]
IteraTeRは、反復的に修正されたテキストの最初の大規模、複数ドメイン、編集意図の注釈付きコーパスである。
テキストのリビジョンプロセスをよりよく理解し、編集意図と執筆品質の間に重要なつながりを築き上げます。
論文 参考訳(メタデータ) (2022-03-08T01:47:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。