論文の概要: Evaluating Text-to-Visual Generation with Image-to-Text Generation
- arxiv url: http://arxiv.org/abs/2404.01291v1
- Date: Mon, 1 Apr 2024 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:16:45.350568
- Title: Evaluating Text-to-Visual Generation with Image-to-Text Generation
- Title(参考訳): 画像・テキスト生成によるテキスト・ツー・ビジュアル・ジェネレーションの評価
- Authors: Zhiqiu Lin, Deepak Pathak, Baiqi Li, Jiayao Li, Xide Xia, Graham Neubig, Pengchuan Zhang, Deva Ramanan,
- Abstract要約: VQAScore(VQAScore)は、アライメントスコアを生成するビジュアル・クエクション・アンサーリング(VQA)モデルである。
これは、多くの(8)画像テキストアライメントベンチマークで最先端の結果を生成する。
我々は1,600の合成テキストプロンプトを備えたより難しいベンチマークであるGenAI-Benchを紹介する。
- 参考スコア(独自算出の注目度): 113.07368313330994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in generative AI, comprehensive evaluation remains challenging because of the lack of effective metrics and standardized benchmarks. For instance, the widely-used CLIPScore measures the alignment between a (generated) image and text prompt, but it fails to produce reliable scores for complex prompts involving compositions of objects, attributes, and relations. One reason is that text encoders of CLIP can notoriously act as a "bag of words", conflating prompts such as "the horse is eating the grass" with "the grass is eating the horse". To address this, we introduce the VQAScore, which uses a visual-question-answering (VQA) model to produce an alignment score by computing the probability of a "Yes" answer to a simple "Does this figure show '{text}'?" question. Though simpler than prior art, VQAScore computed with off-the-shelf models produces state-of-the-art results across many (8) image-text alignment benchmarks. We also compute VQAScore with an in-house model that follows best practices in the literature. For example, we use a bidirectional image-question encoder that allows image embeddings to depend on the question being asked (and vice versa). Our in-house model, CLIP-FlanT5, outperforms even the strongest baselines that make use of the proprietary GPT-4V. Interestingly, although we train with only images, VQAScore can also align text with video and 3D models. VQAScore allows researchers to benchmark text-to-visual generation using complex texts that capture the compositional structure of real-world prompts. We introduce GenAI-Bench, a more challenging benchmark with 1,600 compositional text prompts that require parsing scenes, objects, attributes, relationships, and high-order reasoning like comparison and logic. GenAI-Bench also offers over 15,000 human ratings for leading image and video generation models such as Stable Diffusion, DALL-E 3, and Gen2.
- Abstract(参考訳): 生成AIの大幅な進歩にもかかわらず、効果的なメトリクスと標準化されたベンチマークが欠如しているため、包括的な評価は依然として難しい。
例えば、広く使用されているCLIPScoreは、(生成された)イメージとテキストプロンプトのアライメントを測定するが、オブジェクト、属性、関係性の合成を含む複雑なプロンプトの信頼性の高いスコアを生成できない。
一つの理由は、CLIPのテキストエンコーダーが「言葉の袋」として働き、「馬が草を食べている」といったプロンプトと「草が馬を食べている」といったプロンプトを混同しているからである。
これを解決するために、VQAScoreを導入し、VQAモデルを用いて、単純な「この図は「{text}」を示すか?」という質問に対する「Yes」回答の確率を計算し、アライメントスコアを生成する。
VQAScoreは従来の技術よりもシンプルだが、市販のモデルで計算すると、多くの(8)画像テキストアライメントベンチマークで最先端の結果が生成される。
また、文献のベストプラクティスに従う社内モデルでVQAScoreを計算します。
例えば、双方向画像探索エンコーダを使用して、画像埋め込みは、質問された質問(およびその逆)に依存します。
私たちの社内モデルであるCLIP-FlanT5は、プロプライエタリなGPT-4Vを使用する最強のベースラインでさえも上回っています。
興味深いことに、VQAScoreは画像のみで訓練するが、テキストをビデオや3Dモデルに合わせることもできる。
VQAScoreは、研究者が現実世界のプロンプトの構成構造をキャプチャする複雑なテキストを使用して、テキストから視覚への生成をベンチマークすることを可能にする。
GenAI-Benchは1,600のコンポジションテキストプロンプトを備えたより難しいベンチマークで、シーン、オブジェクト、属性、リレーション、そして比較や論理のような高次推論を必要とする。
GenAI-Benchはまた、Stable Diffusion、DALL-E 3、Gen2などの画像およびビデオ生成モデルに15,000以上の人間格付けを提供している。
関連論文リスト
- ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images [0.44241702149260337]
本稿では,AI生成画像中のテキストとタイポグラフィー生成の性能を明示的に定量化するために設計された新しい評価行列を提案する。
本手法では, 単語の繰り返し, ケース感度, 単語の混合, 文字の不規則な取り込みなど, 複数の冗長性に対処する。
論文 参考訳(メタデータ) (2024-09-18T11:04:35Z) - GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のスコアを評価するために、4万以上の人間格付けを備えたGenAI-Rankベンチマークを新たにリリースした。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。
テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文 参考訳(メタデータ) (2022-11-23T13:52:46Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。