論文の概要: IE-Critic-R1: Advancing the Explanatory Measurement of Text-Driven Image Editing for Human Perception Alignment
- arxiv url: http://arxiv.org/abs/2511.18055v1
- Date: Sat, 22 Nov 2025 13:16:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.604573
- Title: IE-Critic-R1: Advancing the Explanatory Measurement of Text-Driven Image Editing for Human Perception Alignment
- Title(参考訳): IE-Critic-R1:人間の知覚アライメントのためのテキスト駆動画像編集の解説計測の改善
- Authors: Bowen Qu, Shangkun Sun, Xiaoyu Liang, Wei Gao,
- Abstract要約: テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージのデータベース、さまざまな編集プロンプト、および異なる編集方法による対応する編集結果が含まれている。
IE-Critic-R1は、人間の知覚に合わせたテキスト駆動画像編集のための、より包括的で説明可能な品質評価を提供する。
- 参考スコア(独自算出の注目度): 14.001770505266116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-driven image editing have been significant, yet the task of accurately evaluating these edited images continues to pose a considerable challenge. Different from the assessment of text-driven image generation, text-driven image editing is characterized by simultaneously conditioning on both text and a source image. The edited images often retain an intrinsic connection to the original image, which dynamically change with the semantics of the text. However, previous methods tend to solely focus on text-image alignment or have not well aligned with human perception. In this work, we introduce the Text-driven Image Editing Benchmark suite (IE-Bench) to enhance the assessment of text-driven edited images. IE-Bench includes a database contains diverse source images, various editing prompts and the corresponding edited results from different editing methods, and nearly 4,000 samples with corresponding Mean Opinion Scores (MOS) provided by 15 human subjects. Furthermore, we introduce IE-Critic-R1, which, benefiting from Reinforcement Learning from Verifiable Rewards (RLVR), provides more comprehensive and explainable quality assessment for text-driven image editing that aligns with human perception. Extensive experiments demonstrate IE-Critic-R1's superior subjective-alignments on the text-driven image editing task compared with previous metrics. Related data and codes are available to the public.
- Abstract(参考訳): テキスト駆動画像編集の最近の進歩は目覚ましいが、これらの編集画像を正確に評価する作業は依然として大きな課題となっている。
テキスト駆動画像生成の評価と異なり、テキスト駆動画像編集は、テキストとソース画像の両方を同時に条件付けすることで特徴付けられる。
編集された画像は、しばしば原画像と本質的な接続を保持し、テキストのセマンティクスによって動的に変化する。
しかし、従来の手法はテキスト画像のアライメントにのみ焦点をあてる傾向にあり、人間の知覚とうまく一致しない傾向にある。
本研究では,テキスト駆動編集画像の評価を強化するために,テキスト駆動画像編集ベンチマークスイート(IE-Bench)を導入する。
IE-Benchは、様々なソースイメージ、様々な編集プロンプト、異なる編集方法からの編集結果を含むデータベースと、15人の被験者によって提供される平均オピニオンスコア(MOS)に対応する4,000近いサンプルを含んでいる。
さらに,IE-Critic-R1を導入することで,人間の知覚に合わせたテキスト駆動画像編集において,より包括的で説明可能な品質評価を行うことができる。
大規模な実験では、IE-Critic-R1のテキスト駆動画像編集タスクにおける主観的アライメントが、以前のメトリクスと比較して優れていることが示されている。
関連するデータやコードは一般に公開されている。
関連論文リスト
- GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。
また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文 参考訳(メタデータ) (2025-01-17T02:47:25Z) - Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。
既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。
保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。