Fugu-MT 論文翻訳(概要): Augmentation-Driven Metric for Balancing Preservation and Modification in Text-Guided Image Editing

論文の概要: Augmentation-Driven Metric for Balancing Preservation and Modification in Text-Guided Image Editing

arxiv url: http://arxiv.org/abs/2410.11374v1
Date: Tue, 15 Oct 2024 08:12:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.678095
Title: Augmentation-Driven Metric for Balancing Preservation and Modification in Text-Guided Image Editing
Title（参考訳）: テキストガイド画像編集における保存と修正のバランスをとるための拡張駆動メトリック
Authors: Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang,
Abstract要約: 我々は,対象のテキストに最小限の変更を加えて一致させる理想的編集画像の表現を推定するtextttAugCLIPを提案する。様々な編集シナリオを含む5つのベンチマークデータセットに関する実験により、texttAugCLIPは既存のメトリクスと比較して、人間の評価基準と極めてよく一致していることが示された。
参考スコア（独自算出の注目度）: 26.086806549826058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of vision-language and generative models has significantly advanced text-guided image editing, which seeks \textit{preservation} of core elements in the source image while implementing \textit{modifications} based on the target text. However, in the absence of evaluation metrics specifically tailored for text-guided image editing, existing metrics are limited in balancing the consideration of preservation and modification. Especially, our analysis reveals that CLIPScore, the most commonly used metric, tends to favor modification and ignore core attributes to be preserved, resulting in inaccurate evaluations. To address this problem, we propose \texttt{AugCLIP}, \black{which balances preservation and modification by estimating the representation of an ideal edited image that aligns with the target text with minimum alteration on the source image. We augment detailed textual descriptions on the source image and the target text using a multi-modal large language model, to model a hyperplane that separates CLIP space into source or target. The representation of the ideal edited image is an orthogonal projection of the source image into the hyperplane, which encapsulates the relative importance of each attribute considering the interdependent relationships.} Our extensive experiments on five benchmark datasets, encompassing a diverse range of editing scenarios, demonstrate that \texttt{AugCLIP} aligns remarkably well with human evaluation standards compared to existing metrics. The code for evaluation will be open-sourced to contribute to the community.
Abstract（参考訳）: 視覚言語および生成モデルの開発は、ターゲットのテキストに基づいて「textit{modifications」を実装しながら、ソース画像の中核要素の「textit{servation}」を求める、テキスト誘導画像編集を著しく進歩させた。しかし,テキストガイド画像編集に適した評価基準が存在しないため,保存と修正の両面において既存の指標は限られている。特に,最も一般的に使用されている測定基準であるCLIPScoreは,修正を好ましく,保存するコア属性を無視する傾向があり,その結果,不正確な評価が得られた。この問題に対処するために,対象のテキストに最小限の修正を加えて,理想的編集画像の表現を推定することにより,保存と修正のバランスを保ちながら,テキストの保存と修正を両立させる「texttt{AugCLIP}」を提案する。我々は,CLIP空間をソースまたはターゲットに分割するハイパープレーンをモデル化するために,マルチモーダルな言語モデルを用いて,ソース画像とターゲットテキストの詳細なテキスト記述を拡張する。理想的な編集画像の表現は、ソースイメージの直交射影をハイパープレーンに射影し、相互依存関係を考慮した各属性の相対的重要性をカプセル化する。 } さまざまな編集シナリオを含む5つのベンチマークデータセットに関する広範な実験により,既存のメトリクスと比較して, \texttt{AugCLIP} が人間の評価基準と極めてよく一致していることが実証された。評価のためのコードは、コミュニティにコントリビュートするためにオープンソース化される。

関連論文リスト

OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
EditCLIP: Representation Learning for Image Editing [80.90787415853626]
画像編集のための表現学習手法であるEditCLIPを紹介する。 InstructPix2Pixのテキストベースの命令を参照例画像ペアから計算したEditCLIP埋め込みに置き換える。自動評価のために、EditCLIPは、所定の画像対のEditCLIP埋め込みとテキスト編集命令または他の参照画像対のEditCLIP埋め込みの類似度を測定することにより、画像編集を評価する。
論文参考訳（メタデータ） (2025-03-26T08:36:25Z)
IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。 IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文参考訳（メタデータ） (2025-01-17T02:47:25Z)
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文参考訳（メタデータ） (2024-11-02T07:56:54Z)
DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。 Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文参考訳（メタデータ） (2024-04-27T22:45:47Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文参考訳（メタデータ） (2024-03-15T09:26:48Z)
InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文参考訳（メタデータ） (2024-03-08T03:43:04Z)
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文参考訳（メタデータ） (2023-12-21T18:59:06Z)
CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文参考訳（メタデータ） (2023-07-17T11:29:48Z)
Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文参考訳（メタデータ） (2023-05-29T10:48:34Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。我々の手法は、最先端のIIR手法よりも優れています。
論文参考訳（メタデータ） (2023-04-16T10:33:08Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)
FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文参考訳（メタデータ） (2022-03-09T13:34:38Z)
Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文参考訳（メタデータ） (2021-10-06T09:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。