論文の概要: IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment
- arxiv url: http://arxiv.org/abs/2501.09927v1
- Date: Fri, 17 Jan 2025 02:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:41.557841
- Title: IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment
- Title(参考訳): IE-Bench:人間の知覚アライメントのためのテキスト駆動画像編集の精度向上
- Authors: Shangkun Sun, Bowen Qu, Xiaoyu Liang, Songlin Fan, Wei Gao,
- Abstract要約: テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。
また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
- 参考スコア(独自算出の注目度): 6.627422081288281
- License:
- Abstract: Recent advances in text-driven image editing have been significant, yet the task of accurately evaluating these edited images continues to pose a considerable challenge. Different from the assessment of text-driven image generation, text-driven image editing is characterized by simultaneously conditioning on both text and a source image. The edited images often retain an intrinsic connection to the original image, which dynamically change with the semantics of the text. However, previous methods tend to solely focus on text-image alignment or have not aligned with human perception. In this work, we introduce the Text-driven Image Editing Benchmark suite (IE-Bench) to enhance the assessment of text-driven edited images. IE-Bench includes a database contains diverse source images, various editing prompts and the corresponding results different editing methods, and total 3,010 Mean Opinion Scores (MOS) provided by 25 human subjects. Furthermore, we introduce IE-QA, a multi-modality source-aware quality assessment method for text-driven image editing. To the best of our knowledge, IE-Bench offers the first IQA dataset and model tailored for text-driven image editing. Extensive experiments demonstrate IE-QA's superior subjective-alignments on the text-driven image editing task compared with previous metrics. We will make all related data and code available to the public.
- Abstract(参考訳): テキスト駆動画像編集の最近の進歩は目覚ましいが、これらの編集画像を正確に評価する作業は依然として大きな課題となっている。
テキスト駆動画像生成の評価と異なり、テキスト駆動画像編集は、テキストとソース画像の両方を同時に条件付けすることで特徴付けられる。
編集された画像は、しばしば原画像と本質的な接続を保持し、テキストのセマンティクスによって動的に変化する。
しかし、従来の手法はテキスト・イメージのアライメントにのみ焦点をあてる傾向にあり、人間の知覚と一致しない傾向にある。
本研究では,テキスト駆動編集画像の評価を強化するために,テキスト駆動画像編集ベンチマークスイート(IE-Bench)を導入する。
IE-Benchは、様々なソースイメージ、様々な編集プロンプト、および対応する異なる編集方法を含むデータベースと、25人の被験者によって提供される合計3,010の平均オピニオンスコア(MOS)を含んでいる。
さらに,テキスト駆動画像編集のための品質評価手法であるIE-QAを紹介する。
私たちの知る限り、IE-Benchは、テキスト駆動画像編集に適した、最初のIQAデータセットとモデルを提供します。
大規模な実験は、IE-QAのテキスト駆動画像編集タスクにおける主観的アライメントが、以前の指標と比較して優れていることを示している。
関連するすべてのデータとコードを公開します。
関連論文リスト
- Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
保存・修正の側面を適応的に調整するtextbfcontext-aware メトリックである textttAugCLIP を提案する。
textttAugCLIPは、人間の評価基準と著しく整合し、既存のメトリクスよりも優れています。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping [31.026083872774834]
ParallelEditsは、複数の属性をまたいだ同時編集をシームレスに管理するメソッドである。
PIE-Bench++データセットは、多面的シナリオにおけるテキスト駆動の画像編集方法を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-06-03T04:43:56Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:26:48Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。