論文の概要: Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions?
- arxiv url: http://arxiv.org/abs/2302.11713v5
- Date: Tue, 17 Oct 2023 14:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 22:30:25.515190
- Title: Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions?
- Title(参考訳): 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?
- Authors: Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan
Ritter, Ming-Wei Chang
- Abstract要約: 情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
- 参考スコア(独自算出の注目度): 50.29862466940209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained vision and language models have demonstrated state-of-the-art
capabilities over existing tasks involving images and texts, including visual
question answering. However, it remains unclear whether these models possess
the capability to answer questions that are not only querying visual content
but knowledge-intensive and information-seeking. In this study, we introduce
InfoSeek, a visual question answering dataset tailored for information-seeking
questions that cannot be answered with only common sense knowledge. Using
InfoSeek, we analyze various pre-trained visual question answering models and
gain insights into their characteristics. Our findings reveal that
state-of-the-art pre-trained multi-modal models (e.g., PaLI-X, BLIP2, etc.)
face challenges in answering visual information-seeking questions, but
fine-tuning on the InfoSeek dataset elicits models to use fine-grained
knowledge that was learned during their pre-training. Furthermore, we show that
accurate visual entity recognition can be used to improve performance on
InfoSeek by retrieving relevant documents, showing a significant space for
improvement.
- Abstract(参考訳): 事前訓練されたビジョンと言語モデルは、視覚質問応答を含む画像やテキストを含む既存のタスクよりも最先端の能力を示している。
しかし、これらのモデルが、視覚的コンテンツだけでなく、知識集約や情報探索といった質問に答える能力を持っているかどうかは不明だ。
本研究では,共通感覚知識だけでは回答できない情報検索質問用に調整された,視覚的質問応答データセットであるinfoseekを紹介する。
InfoSeekを用いて、事前学習した様々な視覚的質問応答モデルを分析し、その特徴について洞察を得る。
この結果から,最先端の事前学習型マルチモーダルモデル(PaLI-X,BLIP2など)は,視覚情報検索の課題に直面するが,InfoSeekデータセットの微調整では,事前学習中に学習した詳細な知識をモデルに与えていることがわかった。
さらに,関連する文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
関連論文リスト
- Incorporating Language-Driven Appearance Knowledge Units with Visual
Cues in Pedestrian Detection [58.06262483736671]
本稿では,LLMの強みを文脈変化の理解に活用するための新しい手法を提案する。
本稿では,言語による外観知識単位を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - A Dataset and Baselines for Visual Question Answering on Art [33.14114180168856]
AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介します。
質問応答(QA)ペアは、最先端の質問生成方法を用いて自動的に生成される。
我々のデータセットは本質的に、視覚的(ペイントベース)と知識的(ストーリーベース)の質問から成り立っている。
論文 参考訳(メタデータ) (2020-08-28T07:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。