論文の概要: Leveraging Visual Question Answering to Improve Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2010.14953v1
- Date: Wed, 28 Oct 2020 13:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:40:08.530226
- Title: Leveraging Visual Question Answering to Improve Text-to-Image Synthesis
- Title(参考訳): 視覚的質問応答の活用によるテキスト・画像合成の改善
- Authors: Stanislav Frolov, Shailza Jolly, J\"orn Hees, Andreas Dengel
- Abstract要約: 本稿では,テキスト・ツー・イメージ(T2I)合成と視覚質問応答(VQA)を併用して画像品質と画像・テキストアライメントを改善する効果的な方法を提案する。
質問と回答(QA)ペアを連結して追加のトレーニングサンプルを作成し、標準VQAモデルを用いてT2Iモデルに補助的な学習信号を提供する。
本法では,FIDを27.84から25.38に低下させ,R-prec>を83.82%から84.79%に上昇させる。
- 参考スコア(独自算出の注目度): 5.4897944234841445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating images from textual descriptions has recently attracted a lot of
interest. While current models can generate photo-realistic images of
individual objects such as birds and human faces, synthesising images with
multiple objects is still very difficult. In this paper, we propose an
effective way to combine Text-to-Image (T2I) synthesis with Visual Question
Answering (VQA) to improve the image quality and image-text alignment of
generated images by leveraging the VQA 2.0 dataset. We create additional
training samples by concatenating question and answer (QA) pairs and employ a
standard VQA model to provide the T2I model with an auxiliary learning signal.
We encourage images generated from QA pairs to look realistic and additionally
minimize an external VQA loss. Our method lowers the FID from 27.84 to 25.38
and increases the R-prec. from 83.82% to 84.79% when compared to the baseline,
which indicates that T2I synthesis can successfully be improved using a
standard VQA model.
- Abstract(参考訳): テキスト記述から画像を生成することは、最近多くの関心を集めている。
現在のモデルは、鳥や人間の顔などの個々の物体の写実的画像を生成することができるが、複数の物体による画像合成は依然として非常に困難である。
本稿では,テキスト・ツー・イメージ(T2I)合成とVisual Question Answering(VQA)を組み合わせることで,VQA 2.0データセットを利用して生成画像の画質と画像テキストのアライメントを改善する方法を提案する。
質問と回答(QA)ペアを連結して追加のトレーニングサンプルを作成し、標準VQAモデルを用いてT2Iモデルに補助的な学習信号を提供する。
我々はQAペアから生成された画像が現実的に見えるようにし、外部VQA損失を最小化することを推奨する。
提案手法はFIDを27.84から25.38に下げ,R-precを増加させる。
ベースラインと比較して83.82%から84.79%まで、標準のVQAモデルでT2I合成をうまく改善できることを示している。
関連論文リスト
- VQAttack: Transferable Adversarial Attacks on Visual Question Answering
via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。
5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文 参考訳(メタデータ) (2024-02-16T21:17:42Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation
with Question Answering [86.38098280689027]
視覚的質問応答(VQA)を用いたテキスト入力に生成した画像の忠実度を測定する自動評価指標を導入する。
そこで本研究では,12カテゴリにわたる4Kの多様なテキスト入力と25Kの質問(オブジェクト,カウントなど)からなるベンチマークを用いて,既存のテキスト・ツー・イメージ・モデルの包括的評価を行う。
論文 参考訳(メタデータ) (2023-03-21T14:41:02Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - All You May Need for VQA are Image Captions [24.634567673906666]
ボリュームにおけるVQAの例を自動的に導出する手法を提案する。
得られたデータは高品質であることを示す。
データに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善する。
論文 参考訳(メタデータ) (2022-05-04T04:09:23Z) - A Picture May Be Worth a Hundred Words for Visual Question Answering [26.83504716672634]
画像理解においては、簡潔だが詳細な画像表現を用いることが不可欠である。
より高速なR-CNNのような視覚モデルによって抽出された深い視覚的特徴は、複数のタスクで広く使われている。
本稿では、深い視覚的特徴の代わりに記述-探索ペアを入力とし、言語のみのトランスフォーマーモデルに入力する。
論文 参考訳(メタデータ) (2021-06-25T06:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。