Fugu-MT 論文翻訳(概要): Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

論文の概要: Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

arxiv url: http://arxiv.org/abs/2302.11713v5
Date: Tue, 17 Oct 2023 14:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 22:30:25.515190
Title: Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
Title（参考訳）: 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?
Authors: Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
Abstract要約: 情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
参考スコア（独自算出の注目度）: 50.29862466940209
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained vision and language models have demonstrated state-of-the-art capabilities over existing tasks involving images and texts, including visual question answering. However, it remains unclear whether these models possess the capability to answer questions that are not only querying visual content but knowledge-intensive and information-seeking. In this study, we introduce InfoSeek, a visual question answering dataset tailored for information-seeking questions that cannot be answered with only common sense knowledge. Using InfoSeek, we analyze various pre-trained visual question answering models and gain insights into their characteristics. Our findings reveal that state-of-the-art pre-trained multi-modal models (e.g., PaLI-X, BLIP2, etc.) face challenges in answering visual information-seeking questions, but fine-tuning on the InfoSeek dataset elicits models to use fine-grained knowledge that was learned during their pre-training. Furthermore, we show that accurate visual entity recognition can be used to improve performance on InfoSeek by retrieving relevant documents, showing a significant space for improvement.
Abstract（参考訳）: 事前訓練されたビジョンと言語モデルは、視覚質問応答を含む画像やテキストを含む既存のタスクよりも最先端の能力を示している。しかし、これらのモデルが、視覚的コンテンツだけでなく、知識集約や情報探索といった質問に答える能力を持っているかどうかは不明だ。本研究では,共通感覚知識だけでは回答できない情報検索質問用に調整された,視覚的質問応答データセットであるinfoseekを紹介する。 InfoSeekを用いて、事前学習した様々な視覚的質問応答モデルを分析し、その特徴について洞察を得る。この結果から,最先端の事前学習型マルチモーダルモデル(PaLI-X,BLIP2など)は,視覚情報検索の課題に直面するが,InfoSeekデータセットの微調整では,事前学習中に学習した詳細な知識をモデルに与えていることがわかった。さらに,関連する文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。

関連論文リスト

VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。 GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文参考訳（メタデータ） (2025-05-20T11:37:49Z)
EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。 The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文参考訳（メタデータ） (2024-07-17T16:55:42Z)
Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文参考訳（メタデータ） (2024-07-11T17:44:41Z)
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文参考訳（メタデータ） (2024-06-27T02:19:38Z)
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文参考訳（メタデータ） (2024-03-17T18:42:38Z)
REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文参考訳（メタデータ） (2022-06-02T17:59:56Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文参考訳（メタデータ） (2021-01-15T08:37:55Z)
A Dataset and Baselines for Visual Question Answering on Art [33.14114180168856]
AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介します。質問応答(QA)ペアは、最先端の質問生成方法を用いて自動的に生成される。我々のデータセットは本質的に、視覚的(ペイントベース)と知識的(ストーリーベース)の質問から成り立っている。
論文参考訳（メタデータ） (2020-08-28T07:33:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。