Fugu-MT 論文翻訳(概要): Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

論文の概要: Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?

arxiv url: http://arxiv.org/abs/2302.11713v2
Date: Fri, 24 Feb 2023 19:30:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 12:17:01.211356
Title: Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
Title（参考訳）: 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?
Authors: Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
Abstract要約: インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・インフォメーション・アンサービング・データセットについて述べる。我々は、事前学習された様々な視覚的QAシステムを分析し、異なる事前学習されたモデルの特徴について洞察を得る。我々は,次世代のマルチモーダル事前学習の理解と発展の道を開くことを願っている。
参考スコア（独自算出の注目度）: 41.932511140265255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models have demonstrated an emergent capability in answering knowledge intensive questions. With recent progress on web-scale visual and language pre-training, do these models also understand how to answer visual information seeking questions? To answer this question, we present InfoSeek, a Visual Question Answering dataset that focuses on asking information-seeking questions, where the information can not be answered by common sense knowledge. We perform a multi-stage human annotation to collect a natural distribution of high-quality visual information seeking question-answer pairs. We also construct a large-scale, automatically collected dataset by combining existing visual entity recognition datasets and Wikidata, which provides over one million examples for model fine-tuning and validation. Based on InfoSeek, we analyzed various pre-trained Visual QA systems to gain insights into the characteristics of different pre-trained models. Our analysis shows that it is challenging for the state-of-the-art multi-modal pre-trained models to answer visual information seeking questions, but this capability is improved through fine-tuning on the automated InfoSeek dataset. We hope our analysis paves the way to understand and develop the next generation of multi-modal pre-training.
Abstract（参考訳）: 大規模言語モデルは、知識集約的な疑問に答える創発的な能力を示している。ウェブスケールのビジュアルおよび言語事前学習の最近の進歩により、これらのモデルは、質問に答える視覚情報についても理解できますか? この疑問に答えるために,情報検索に焦点をあてたビジュアル質問回答データセットであるInfoSeekを紹介した。質問・回答ペアを求める高品質な視覚情報の自然な分布を収集するために,多段階のヒューマンアノテーションを行う。また、既存のビジュアルエンティティ認識データセットとWikidataを組み合わせて、大規模で自動で収集されたデータセットを構築し、モデル微調整と検証に100万以上の例を提供する。 InfoSeekに基づいて、事前学習された様々なビジュアルQAシステムを分析し、異なる事前学習されたモデルの特徴について洞察を得た。分析の結果、最先端のマルチモーダル事前学習モデルでは、質問に答えることは困難であるが、この能力は、自動化されたinfoseekデータセットの微調整によって改善されている。我々は,次世代のマルチモーダル事前学習の理解と発展の道を開くことを願っている。

関連論文リスト

VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。 GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文参考訳（メタデータ） (2025-05-20T11:37:49Z)
Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文参考訳（メタデータ） (2024-12-02T10:54:31Z)
EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。 The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文参考訳（メタデータ） (2024-07-17T16:55:42Z)
Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文参考訳（メタデータ） (2024-07-11T17:44:41Z)
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文参考訳（メタデータ） (2024-06-27T02:19:38Z)
SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。 SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文参考訳（メタデータ） (2024-03-17T18:42:38Z)
REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文参考訳（メタデータ） (2022-06-02T17:59:56Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文参考訳（メタデータ） (2021-01-15T08:37:55Z)
A Dataset and Baselines for Visual Question Answering on Art [33.14114180168856]
AQUA(Art QUestion Answering)という新しいデータセットの構築に向けた最初の試みを紹介します。質問応答(QA)ペアは、最先端の質問生成方法を用いて自動的に生成される。我々のデータセットは本質的に、視覚的(ペイントベース)と知識的(ストーリーベース)の質問から成り立っている。
論文参考訳（メタデータ） (2020-08-28T07:33:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。