論文の概要: A Simple Baseline for Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2310.13570v2
- Date: Tue, 24 Oct 2023 13:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:34:54.022907
- Title: A Simple Baseline for Knowledge-Based Visual Question Answering
- Title(参考訳): 知識に基づく視覚質問応答のための簡単なベースライン
- Authors: Alexandros Xenos, Themos Stafylakis, Ioannis Patras and Georgios
Tzimiropoulos
- Abstract要約: 本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 78.00758742784532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is on the problem of Knowledge-Based Visual Question Answering
(KB-VQA). Recent works have emphasized the significance of incorporating both
explicit (through external databases) and implicit (through LLMs) knowledge to
answer questions requiring external knowledge effectively. A common limitation
of such approaches is that they consist of relatively complicated pipelines and
often heavily rely on accessing GPT-3 API. Our main contribution in this paper
is to propose a much simpler and readily reproducible pipeline which, in a
nutshell, is based on efficient in-context learning by prompting LLaMA (1 and
2) using question-informative captions as contextual information. Contrary to
recent approaches, our method is training-free, does not require access to
external databases or APIs, and yet achieves state-of-the-art accuracy on the
OK-VQA and A-OK-VQA datasets. Finally, we perform several ablation studies to
understand important aspects of our method. Our code is publicly available at
https://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQA
- Abstract(参考訳): 本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
最近の研究は、(外部データベースを通して)明示的な知識と(LCMを通して)暗黙的な知識の両方を効果的に取り入れることの重要性を強調している。
このようなアプローチの共通する制限は、比較的複雑なパイプラインで構成されており、しばしばGPT-3 APIへのアクセスに大きく依存していることである。
本稿では,質問文を文脈情報としてラマ(1,2)を促すことで,効率的な文脈内学習を基本とした,よりシンプルで容易に再現可能なパイプラインを提案する。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
最後に,本手法の重要な側面を理解するため,いくつかのアブレーション研究を行った。
私たちのコードはhttps://github.com/alexandrosXe/ASimple-Baseline-For-Knowledge-Based-VQAで公開されています。
関連論文リスト
- Contri(e)ve: Context + Retrieve for Scholarly Question Answering [0.0]
本稿では,オープンソースのLarge Language Model (LLM): Scholarly-QALDデータセット用のLlama3.1を提案する。
まず、異なる構造化データソースと非構造化データソースから質問に関連するコンテキストを抽出する。
第2に,LLMの情報検索性能を向上させるために,プロンプトエンジニアリングを実装した。
論文 参考訳(メタデータ) (2024-09-13T17:38:47Z) - HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs [9.559336828884808]
大規模言語モデル(LLM)は、単純な(シングルホップ)質問に答えるには適しています。
質問の複雑さが増すにつれて、LLMの性能は低下する。
最近の手法では、構造化知識三重項を原文に組み込むことで、この負担を軽減しようとしている。
本稿では,知識グラフ(KG)を用いてコンテキスト認識し,クエリ関連情報を含むように蒸留する手法を提案する。
論文 参考訳(メタデータ) (2024-06-10T05:22:49Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - LaKo: Knowledge-driven Visual Question Answering via Late
Knowledge-to-Text Injection [30.65373229617201]
我々はLate Knowledge-to-text Injectionによる知識駆動型VQA手法であるLaKoを提案する。
外部KGを効果的に組み込むため、三重項をテキストに転送し、遅延注入機構を提案する。
提案手法は,OKVQAデータセットを用いた評価において,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-07-26T13:29:51Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - MuKEA: Multimodal Knowledge Extraction and Accumulation for
Knowledge-based Visual Question Answering [23.628740943735167]
視覚的対象と事実の回答を暗黙の関係で関連付けるために,明快な三重項によるマルチモーダル知識を表現するためにMuKEAを提案する。
事前学習と微調整の学習戦略を採用することで、基礎知識とドメイン固有のマルチモーダル知識の両方を段階的に蓄積し、回答予測を行う。
論文 参考訳(メタデータ) (2022-03-17T07:42:14Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。