論文の概要: Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback
- arxiv url: http://arxiv.org/abs/2307.04749v2
- Date: Wed, 6 Dec 2023 00:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 18:37:38.101142
- Title: Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback
- Title(参考訳): 分割・評価・再定義:反復的VQAフィードバックによるテキスト・画像アライメントの評価と改善
- Authors: Jaskirat Singh and Liang Zheng
- Abstract要約: テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
- 参考スコア(独自算出の注目度): 20.78162037954646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of text-conditioned image generation has made unparalleled progress
with the recent advent of latent diffusion models. While remarkable, as the
complexity of given text input increases, the state-of-the-art diffusion models
may still fail in generating images which accurately convey the semantics of
the given prompt. Furthermore, it has been observed that such misalignments are
often left undetected by pretrained multi-modal models such as CLIP. To address
these problems, in this paper we explore a simple yet effective decompositional
approach towards both evaluation and improvement of text-to-image alignment. In
particular, we first introduce a Decompositional-Alignment-Score which given a
complex prompt decomposes it into a set of disjoint assertions. The alignment
of each assertion with generated images is then measured using a VQA model.
Finally, alignment scores for different assertions are combined aposteriori to
give the final text-to-image alignment score. Experimental analysis reveals
that the proposed alignment metric shows significantly higher correlation with
human ratings as opposed to traditional CLIP, BLIP scores. Furthermore, we also
find that the assertion level alignment scores provide a useful feedback which
can then be used in a simple iterative procedure to gradually increase the
expression of different assertions in the final image outputs. Human user
studies indicate that the proposed approach surpasses previous state-of-the-art
by 8.7% in overall text-to-image alignment accuracy. Project page for our paper
is available at https://1jsingh.github.io/divide-evaluate-and-refine
- Abstract(参考訳): テキスト条件付き画像生成の分野は、最近潜伏拡散モデルが出現し、相容れない進歩を遂げた。
驚くべきことに、与えられたテキスト入力の複雑さが増加するにつれて、最先端の拡散モデルは、与えられたプロンプトのセマンティクスを正確に伝達する画像の生成に失敗する可能性がある。
さらに,CLIPのような事前訓練されたマルチモーダルモデルでは,このような誤認識は検出されないことが多い。
これらの問題に対処するため,本論文では,テキスト間アライメントの評価と改善の両面において,単純かつ効果的な分解アプローチを提案する。
特に、まず分解-アライメント-スコアを導入し、複雑なプロンプトを与えて、それを不同なアサーションの集合に分解する。
次に、各アサーションと生成された画像のアライメントをVQAモデルを用いて測定する。
最後に、異なるアサーションに対するアライメントスコアを結合して、最終的なテキストから画像へのアライメントスコアを与える。
実験により,従来のCLIP,BLIPスコアと比べ,アライメント測定値の相関が有意に高いことが明らかとなった。
さらに,アサーションレベルアライメントスコアは,最終画像出力の異なるアサーション表現を徐々に増加させるために,簡単な反復手順で使用できる有用なフィードバックを提供することがわかった。
人間のユーザスタディは、提案手法が従来の最先端の手法を8.7%上回ったことを示唆している。
私たちの論文のプロジェクトページはhttps://1jsingh.github.io/divide-evaluate-and-refineで閲覧できます。
関連論文リスト
- Extract Free Dense Misalignment from CLIP [7.0247398611254175]
この研究はCLIP4DMと呼ばれる新しいアプローチを提案する。
我々は、個々のテキストトークンの負の勾配を誤適応を示すために、勾配に基づく属性計算法を改良する。
提案手法は,ゼロショットモデル間の最先端性能と微調整モデルとの競合性能を示す。
論文 参考訳(メタデータ) (2024-12-24T12:51:05Z) - DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization [15.920735314050296]
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。
不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。
実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-12T10:59:44Z) - Bridging the Gap: Aligning Text-to-Image Diffusion Models with Specific Feedback [5.415802995586328]
フィードバックからの学習は、テキスト間拡散モデルにおけるテキストプロンプトと画像の整合性を高めることが示されている。
本稿では,3段階を含む特定の報酬目標を持つ効率的な微動法を提案する。
このベンチマークによる実験結果から,本モデルはアライメントと忠実度の両方において,他のSOTA法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-28T09:56:28Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models [35.02969643344228]
既存のモデルの制御性を改善するために,テキストアンコールスコア合成(TASC)と呼ばれる学習自由アプローチを提案する。
そこで本研究では,これらを個別に計算した結果に対して,新たな競合を回避するためのクロスアテンション機構を用いてアテンション操作を提案する。
論文 参考訳(メタデータ) (2023-06-26T03:48:15Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。