論文の概要: Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge
- arxiv url: http://arxiv.org/abs/2401.10712v5
- Date: Sat, 12 Oct 2024 08:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:05:58.368906
- Title: Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge
- Title(参考訳): Q&Aプロンプト:様々な世界知識を必要とするVQAに対する質問応答プロンプトのマイニングを通して、リッチなビジュアルクルーを発見する
- Authors: Haibo Wang, Weifeng Ge,
- Abstract要約: 我々は、堅牢な相互モダリティ推論能力を持つAIモデルを装備するためのQ&A Promptsを提案する。
まず、視覚的質問生成モデルの入力と出力として、画像と回答のペアと対応する質問をトレーニングセットとして使用する。
次に、画像タグモデルを用いて様々なインスタンスを識別し、パッケージ化された画像タグペアを視覚質問生成モデルに送信し、抽出した画像タグと関連する質問を回答として生成する。
- 参考スコア(独自算出の注目度): 10.074327344317116
- License:
- Abstract: With the breakthrough of multi-modal large language models, answering complex visual questions that demand advanced reasoning abilities and world knowledge has become a much more important testbed for developing AI models than ever. However, equipping AI models with robust cross-modality reasoning ability remains challenging since the cognition scheme of humans has not been understood systematically. In this paper, we believe that if we can collect visual clues in the given image as much as possible, we will recognize the image more accurately, understand the question better, recall relevant knowledge more easily, and finally reason out the answer. We discover these rich visual clues by mining question-answer pairs in images and sending them into multi-modal large language models as prompts. We call the proposed method Q&A Prompts. Specifically, we first use the image-answer pairs and the corresponding questions in the training set as inputs and outputs to train a visual question generation model. Then, we use an image tagging model to identify various instances and send packaged image-tag pairs into the visual question generation model to generate relevant questions with the extracted image tags as answers. Finally, we encode these generated question-answer pairs as prompts with a visual-aware prompting module and send them into pre-trained multi-modal large language models to reason out the final answers. Experimental results show that, compared with state-of-the-art methods, our Q&A Prompts achieves substantial improvements on the challenging visual question answering datasets requiring reasoning over diverse world knowledge, such as OK-VQA and A-OKVQA.
- Abstract(参考訳): マルチモーダルな大規模言語モデルのブレークスルーによって、高度な推論能力と世界知識を要求する複雑な視覚的疑問に答えることが、AIモデルを開発する上でこれまで以上に重要なテストベッドになっている。
しかし、人間の認知スキームが体系的に理解されていないため、頑健な相互モダリティ推論能力を持つAIモデルを装備することは依然として困難である。
本稿では,与えられた画像の視覚的手がかりをできるだけ集めることができれば,画像をより正確に認識し,質問をよりよく理解し,関連する知識をより簡単に思い出し,最終的に答えを推論できると考えている。
画像中の問合せペアをマイニングし、複数のモーダルな大言語モデルにプロンプトとして送ることで、これらのリッチな視覚的手がかりを発見する。
提案手法をQ&A Promptsと呼ぶ。
具体的には、まず、視覚的な質問生成モデルをトレーニングするために、入力と出力として、トレーニングセット内の画像-問合せペアと対応する質問を使用する。
そして,画像タグモデルを用いて,様々なインスタンスを識別し,パッケージ化された画像タグペアを視覚質問生成モデルに送信し,抽出した画像タグと関連する質問を回答として生成する。
最後に、これらの生成した問合せペアを視覚認識プロンプトモジュールでプロンプトとしてエンコードし、学習済みのマルチモーダルな大言語モデルに送信し、最終的な答えを推論する。
実験結果から,我々のQ&A Promptsは最先端の手法と比較して,OK-VQAやA-OKVQAといった多種多様な世界知識の推論を必要とするデータセットの難解な視覚的質問応答に対する大幅な改善を実現していることがわかった。
関連論文リスト
- Multimodal Reranking for Knowledge-Intensive Visual Question Answering [77.24401833951096]
回答生成のための知識候補のランク付け品質を向上させるためのマルチモーダル・リランカを提案する。
OK-VQAとA-OKVQAの実験は、遠隔監視からのマルチモーダルリランカーが一貫した改善をもたらすことを示している。
論文 参考訳(メタデータ) (2024-07-17T02:58:52Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - FashionVQA: A Domain-Specific Visual Question Answering System [2.6924405243296134]
我々は、ファッション写真画像におけるアパレルに関する複雑な自然言語質問に答えるために、視覚的質問応答システム(VQA)を訓練する。
最高のモデルの正確さは、人間が生成した質問に答える場合でも、人間の専門家レベルを超えます。
大規模マルチモーダルなドメイン特化データセットを生成するための我々のアプローチは、自然言語で通信可能な特殊なモデルを訓練するためのパスを提供する。
論文 参考訳(メタデータ) (2022-08-24T01:18:13Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Enhancing Visual Dialog Questioner with Entity-based Strategy Learning
and Augmented Guesser [43.42833961578857]
本稿では,関連エンティティの指導の下で質問を生成し,人間の対話からエンティティベースの質問戦略を学習するReeQ(Relationed entity enhanced Questioner)を提案する。
また,特にVD設定に最適化されたAugG(Augmented Guesser)を提案する。
VisDial v1.0データセットによる実験結果から,本手法は画像認識タスクと問合せ多様性の両方において最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-09-06T08:58:43Z) - WebQA: Multihop and Multimodal QA [49.683300706718136]
自然言語とコンピュータビジョンのギャップをWebQAで埋めることを提案する。
我々の課題は、ソースのモダリティに関係なくシームレスに遷移し、理由を与える統一されたマルチモーダル推論モデルを作ることです。
論文 参考訳(メタデータ) (2021-09-01T19:43:59Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Generating Natural Questions from Images for Multimodal Assistants [4.930442416763205]
本稿では,画像の内容やメタデータを考慮した多様で意味のある質問を生成するためのアプローチを提案する。
BLEU, METEOR, ROUGE, CIDEr などの標準評価指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-11-17T19:12:23Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。