Fugu-MT 論文翻訳(概要): Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing

論文の概要: Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing

arxiv url: http://arxiv.org/abs/2410.11374v3
Date: Thu, 20 Mar 2025 07:36:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:51.799073
Title: Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing
Title（参考訳）: 保存か修正か? テキストガイド画像編集における保存と修正のバランスをとるためのコンテキストアウェア評価
Authors: Yoonjeon Kim, Soohyun Ryu, Yeonsung Jung, Hyunkoo Lee, Joowon Kim, June Yong Yang, Jaeryong Hwang, Eunho Yang,
Abstract要約: テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
参考スコア（独自算出の注目度）: 26.086806549826058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The development of vision-language and generative models has significantly advanced text-guided image editing, which seeks the preservation of core elements in the source image while implementing modifications based on the target text. However, existing metrics have a context-blindness problem, indiscriminately applying the same evaluation criteria on completely different pairs of source image and target text, biasing towards either modification or preservation. Directional CLIP similarity, the only metric that considers both source image and target text, is also biased towards modification aspects and attends to irrelevant editing regions of the image. We propose AugCLIP, a context-aware metric that adaptively coordinates preservation and modification aspects, depending on the specific context of a given source image and target text. This is done by deriving the CLIP representation of an ideally edited image, that preserves the source image with necessary modifications to align with target text. More specifically, using a multi-modal large language model, AugCLIP augments the textual descriptions of the source and target, then calculates a modification vector through a hyperplane that separates source and target attributes in CLIP space. Extensive experiments on five benchmark datasets, encompassing a diverse range of editing scenarios, show that AugCLIP aligns remarkably well with human evaluation standards, outperforming existing metrics. The code is available at https://github.com/augclip/augclip_eval.
Abstract（参考訳）: 視覚言語および生成モデルの開発は、ターゲットテキストに基づいた修正を実装しながら、ソース画像の中核要素の保存を求める、テキスト誘導画像編集を著しく進歩させた。しかし、既存のメトリクスには文脈の盲点の問題があり、全く異なるソースイメージとターゲットテキストに対して同じ評価基準を無差別に適用し、修正や保存のどちらにも偏っている。ソースイメージとターゲットテキストの両方を考慮する唯一の指標である Directional CLIP の類似性は、修正面にも偏りがあり、画像の無関係な編集領域に付随する。 AugCLIPは、特定のソース画像とターゲットテキストのコンテキストに応じて、保存と修正の側面を適応的にコーディネートするコンテキスト対応メトリックである。これは、理想的に編集されたイメージのCLIP表現を導出することで実現される。より具体的には、マルチモーダルな大言語モデルを使用して、AugCLIPはソースとターゲットのテキスト記述を拡張し、CLIP空間のソースとターゲット属性を分離するハイパープレーンを通じて修正ベクトルを計算する。さまざまな編集シナリオを含む5つのベンチマークデータセットに関する大規模な実験は、AugCLIPが人間の評価基準と著しく整合し、既存のメトリクスよりも優れていることを示している。コードはhttps://github.com/augclip/augclip_eval.comで入手できる。

関連論文リスト

OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文参考訳（メタデータ） (2025-05-16T17:55:54Z)
EditCLIP: Representation Learning for Image Editing [80.90787415853626]
画像編集のための表現学習手法であるEditCLIPを紹介する。 InstructPix2Pixのテキストベースの命令を参照例画像ペアから計算したEditCLIP埋め込みに置き換える。自動評価のために、EditCLIPは、所定の画像対のEditCLIP埋め込みとテキスト編集命令または他の参照画像対のEditCLIP埋め込みの類似度を測定することにより、画像編集を評価する。
論文参考訳（メタデータ） (2025-03-26T08:36:25Z)
IE-Bench: Advancing the Measurement of Text-Driven Image Editing for Human Perception Alignment [6.627422081288281]
テキスト駆動画像編集ベンチマークスイート (IE-Bench) を導入し, テキスト駆動画像の評価を強化する。 IE-Benchには、さまざまなソースイメージ、さまざまな編集プロンプト、およびそれに対応する結果を含むデータベースが含まれている。また,テキスト駆動画像編集のための品質評価手法であるIE-QAを導入する。
論文参考訳（メタデータ） (2025-01-17T02:47:25Z)
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文参考訳（メタデータ） (2024-11-02T07:56:54Z)
DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。 Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文参考訳（メタデータ） (2024-04-27T22:45:47Z)
FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。 FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。 FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文参考訳（メタデータ） (2024-04-23T03:42:14Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文参考訳（メタデータ） (2024-03-15T09:26:48Z)
InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文参考訳（メタデータ） (2024-03-08T03:43:04Z)
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文参考訳（メタデータ） (2023-12-21T18:59:06Z)
CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文参考訳（メタデータ） (2023-07-17T11:29:48Z)
Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文参考訳（メタデータ） (2023-05-29T10:48:34Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
Language Guided Local Infiltration for Interactive Image Retrieval [12.324893780690918]
Interactive Image Retrieval (IIR) は、一般的に参照画像と似ているが、要求されたテキスト修正の下で画像を取得することを目的としている。テキスト情報を完全に活用し,画像特徴にテキスト特徴を浸透させる言語ガイド型局所浸透システム(LGLI)を提案する。我々の手法は、最先端のIIR手法よりも優れています。
論文参考訳（メタデータ） (2023-04-16T10:33:08Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)
FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文参考訳（メタデータ） (2022-03-09T13:34:38Z)
Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文参考訳（メタデータ） (2021-10-06T09:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。