論文の概要: Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions?
- arxiv url: http://arxiv.org/abs/2302.11713v2
- Date: Fri, 24 Feb 2023 19:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 12:17:01.211356
- Title: Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions?
- Title(参考訳): 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?
- Authors: Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan
Ritter, Ming-Wei Chang
- Abstract要約: インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・アンサービング・データセットについて述べる。
我々は、事前学習された様々な視覚的QAシステムを分析し、異なる事前学習されたモデルの特徴について洞察を得る。
我々は,次世代のマルチモーダル事前学習の理解と発展の道を開くことを願っている。
- 参考スコア(独自算出の注目度): 41.932511140265255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated an emergent capability in answering
knowledge intensive questions. With recent progress on web-scale visual and
language pre-training, do these models also understand how to answer visual
information seeking questions? To answer this question, we present InfoSeek, a
Visual Question Answering dataset that focuses on asking information-seeking
questions, where the information can not be answered by common sense knowledge.
We perform a multi-stage human annotation to collect a natural distribution of
high-quality visual information seeking question-answer pairs. We also
construct a large-scale, automatically collected dataset by combining existing
visual entity recognition datasets and Wikidata, which provides over one
million examples for model fine-tuning and validation. Based on InfoSeek, we
analyzed various pre-trained Visual QA systems to gain insights into the
characteristics of different pre-trained models. Our analysis shows that it is
challenging for the state-of-the-art multi-modal pre-trained models to answer
visual information seeking questions, but this capability is improved through
fine-tuning on the automated InfoSeek dataset. We hope our analysis paves the
way to understand and develop the next generation of multi-modal pre-training.
- Abstract(参考訳): 大規模言語モデルは、知識集約的な疑問に答える創発的な能力を示している。
ウェブスケールのビジュアルおよび言語事前学習の最近の進歩により、これらのモデルは、質問に答える視覚情報についても理解できますか?
この疑問に答えるために,情報検索に焦点をあてたビジュアル質問回答データセットであるInfoSeekを紹介した。
質問・回答ペアを求める高品質な視覚情報の自然な分布を収集するために,多段階のヒューマンアノテーションを行う。
また、既存のビジュアルエンティティ認識データセットとWikidataを組み合わせて、大規模で自動で収集されたデータセットを構築し、モデル微調整と検証に100万以上の例を提供する。
InfoSeekに基づいて、事前学習された様々なビジュアルQAシステムを分析し、異なる事前学習されたモデルの特徴について洞察を得た。
分析の結果、最先端のマルチモーダル事前学習モデルでは、質問に答えることは困難であるが、この能力は、自動化されたinfoseekデータセットの微調整によって改善されている。
我々は,次世代のマルチモーダル事前学習の理解と発展の道を開くことを願っている。
関連論文リスト
- Incorporating Language-Driven Appearance Knowledge Units with Visual
Cues in Pedestrian Detection [58.06262483736671]
本稿では,LLMの強みを文脈変化の理解に活用するための新しい手法を提案する。
本稿では,言語による外観知識単位を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - VIPHY: Probing "Visible" Physical Commonsense Knowledge [22.00069189468524]
視覚言語モデル(VLM)は視覚的推論タスクにおいて顕著な性能を示した。
視覚的」身体的知識を習得する能力を評価する。
以上の結果から,モデルと人的パフォーマンスの間には深刻なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2022-09-15T02:06:25Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - A Dataset and Baselines for Visual Question Answering on Art [33.14114180168856]
AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介します。
質問応答(QA)ペアは、最先端の質問生成方法を用いて自動的に生成される。
我々のデータセットは本質的に、視覚的(ペイントベース)と知識的(ストーリーベース)の質問から成り立っている。
論文 参考訳(メタデータ) (2020-08-28T07:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。