論文の概要: Augmentation-Driven Metric for Balancing Preservation and Modification in Text-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2410.11374v1
- Date: Tue, 15 Oct 2024 08:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:48.019210
- Title: Augmentation-Driven Metric for Balancing Preservation and Modification in Text-Guided Image Editing
- Title(参考訳): テキストガイド画像編集における保存と修正のバランスをとるための拡張駆動メトリック
- Authors: Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang,
- Abstract要約: 我々は,対象のテキストに最小限の変更を加えて一致させる理想的編集画像の表現を推定するtextttAugCLIPを提案する。
様々な編集シナリオを含む5つのベンチマークデータセットに関する実験により、texttAugCLIPは既存のメトリクスと比較して、人間の評価基準と極めてよく一致していることが示された。
- 参考スコア(独自算出の注目度): 26.086806549826058
- License:
- Abstract: The development of vision-language and generative models has significantly advanced text-guided image editing, which seeks \textit{preservation} of core elements in the source image while implementing \textit{modifications} based on the target text. However, in the absence of evaluation metrics specifically tailored for text-guided image editing, existing metrics are limited in balancing the consideration of preservation and modification. Especially, our analysis reveals that CLIPScore, the most commonly used metric, tends to favor modification and ignore core attributes to be preserved, resulting in inaccurate evaluations. To address this problem, we propose \texttt{AugCLIP}, \black{which balances preservation and modification by estimating the representation of an ideal edited image that aligns with the target text with minimum alteration on the source image. We augment detailed textual descriptions on the source image and the target text using a multi-modal large language model, to model a hyperplane that separates CLIP space into source or target. The representation of the ideal edited image is an orthogonal projection of the source image into the hyperplane, which encapsulates the relative importance of each attribute considering the interdependent relationships.} Our extensive experiments on five benchmark datasets, encompassing a diverse range of editing scenarios, demonstrate that \texttt{AugCLIP} aligns remarkably well with human evaluation standards compared to existing metrics. The code for evaluation will be open-sourced to contribute to the community.
- Abstract(参考訳): 視覚言語および生成モデルの開発は、ターゲットのテキストに基づいて「textit{modifications」を実装しながら、ソース画像の中核要素の「textit{servation}」を求める、テキスト誘導画像編集を著しく進歩させた。
しかし,テキストガイド画像編集に適した評価基準が存在しないため,保存と修正の両面において既存の指標は限られている。
特に,最も一般的に使用されている測定基準であるCLIPScoreは,修正を好ましく,保存するコア属性を無視する傾向があり,その結果,不正確な評価が得られた。
この問題に対処するために,対象のテキストに最小限の修正を加えて,理想的編集画像の表現を推定することにより,保存と修正のバランスを保ちながら,テキストの保存と修正を両立させる「texttt{AugCLIP}」を提案する。
我々は,CLIP空間をソースまたはターゲットに分割するハイパープレーンをモデル化するために,マルチモーダルな言語モデルを用いて,ソース画像とターゲットテキストの詳細なテキスト記述を拡張する。
理想的な編集画像の表現は、ソースイメージの直交射影をハイパープレーンに射影し、相互依存関係を考慮した各属性の相対的重要性をカプセル化する。
} さまざまな編集シナリオを含む5つのベンチマークデータセットに関する広範な実験により,既存のメトリクスと比較して, \texttt{AugCLIP} が人間の評価基準と極めてよく一致していることが実証された。
評価のためのコードは、コミュニティにコントリビュートするためにオープンソース化される。
関連論文リスト
- IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。
IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。
また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文 参考訳(メタデータ) (2025-01-17T02:47:25Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:26:48Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。
テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。
我々の手法は、最先端のIIR手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-16T10:33:08Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。