論文の概要: Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback
- arxiv url: http://arxiv.org/abs/2307.04749v1
- Date: Mon, 10 Jul 2023 17:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:03:16.135033
- Title: Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback
- Title(参考訳): 分割・評価・再定義:反復的VQAフィードバックによるテキスト・画像アライメントの評価と改善
- Authors: Jaskirat Singh and Liang Zheng
- Abstract要約: テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
- 参考スコア(独自算出の注目度): 22.889059874754242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of text-conditioned image generation has made unparalleled progress
with the recent advent of latent diffusion models. While remarkable, as the
complexity of given text input increases, the state-of-the-art diffusion models
may still fail in generating images which accurately convey the semantics of
the given prompt. Furthermore, it has been observed that such misalignments are
often left undetected by pretrained multi-modal models such as CLIP. To address
these problems, in this paper we explore a simple yet effective decompositional
approach towards both evaluation and improvement of text-to-image alignment. In
particular, we first introduce a Decompositional-Alignment-Score which given a
complex prompt decomposes it into a set of disjoint assertions. The alignment
of each assertion with generated images is then measured using a VQA model.
Finally, alignment scores for different assertions are combined aposteriori to
give the final text-to-image alignment score. Experimental analysis reveals
that the proposed alignment metric shows significantly higher correlation with
human ratings as opposed to traditional CLIP, BLIP scores. Furthermore, we also
find that the assertion level alignment scores provide a useful feedback which
can then be used in a simple iterative procedure to gradually increase the
expression of different assertions in the final image outputs. Human user
studies indicate that the proposed approach surpasses previous state-of-the-art
by 8.7% in overall text-to-image alignment accuracy. Project page for our paper
is available at https://1jsingh.github.io/divide-evaluate-and-refine
- Abstract(参考訳): テキスト条件付き画像生成の分野は、最近潜伏拡散モデルが出現し、相容れない進歩を遂げた。
驚くべきことに、与えられたテキスト入力の複雑さが増加するにつれて、最先端の拡散モデルは、与えられたプロンプトのセマンティクスを正確に伝達する画像の生成に失敗する可能性がある。
さらに,CLIPのような事前訓練されたマルチモーダルモデルでは,このような誤認識は検出されないことが多い。
これらの問題に対処するため,本論文では,テキスト間アライメントの評価と改善の両面において,単純かつ効果的な分解アプローチを提案する。
特に、まず分解-アライメント-スコアを導入し、複雑なプロンプトを与えて、それを不同なアサーションの集合に分解する。
次に、各アサーションと生成された画像のアライメントをVQAモデルを用いて測定する。
最後に、異なるアサーションに対するアライメントスコアを結合して、最終的なテキストから画像へのアライメントスコアを与える。
実験により,従来のCLIP,BLIPスコアと比べ,アライメント測定値の相関が有意に高いことが明らかとなった。
さらに,アサーションレベルアライメントスコアは,最終画像出力の異なるアサーション表現を徐々に増加させるために,簡単な反復手順で使用できる有用なフィードバックを提供することがわかった。
人間のユーザスタディは、提案手法が従来の最先端の手法を8.7%上回ったことを示唆している。
私たちの論文のプロジェクトページはhttps://1jsingh.github.io/divide-evaluate-and-refineで閲覧できます。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models [35.02969643344228]
既存のモデルの制御性を改善するために,テキストアンコールスコア合成(TASC)と呼ばれる学習自由アプローチを提案する。
そこで本研究では,これらを個別に計算した結果に対して,新たな競合を回避するためのクロスアテンション機構を用いてアテンション操作を提案する。
論文 参考訳(メタデータ) (2023-06-26T03:48:15Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。