Fugu-MT 論文翻訳(概要): Find The Gap: Knowledge Base Reasoning For Visual Question Answering

論文の概要: Find The Gap: Knowledge Base Reasoning For Visual Question Answering

arxiv url: http://arxiv.org/abs/2404.10226v1
Date: Tue, 16 Apr 2024 02:11:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 18:22:10.636630
Title: Find The Gap: Knowledge Base Reasoning For Visual Question Answering
Title（参考訳）: Find the Gap:ビジュアル質問応答のための知識ベース推論
Authors: Elham J. Barezi, Parisa Kordjamshidi,
Abstract要約: 我々は、知識に基づく視覚的質問応答の分析を行い、その答えが与えられた場合、モデルがそれを視覚的モダリティに根ざす必要がある。本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。以上の結果から,LLMは1ホップの推論では強いが,細調整NNモデルと比較して2ホップの推論に苦しむことが明らかとなった。
参考スコア（独自算出の注目度）: 19.6585442152102
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We analyze knowledge-based visual question answering, for which given a question, the models need to ground it into the visual modality and retrieve the relevant knowledge from a given large knowledge base (KB) to be able to answer. Our analysis has two folds, one based on designing neural architectures and training them from scratch, and another based on large pre-trained language models (LLMs). Our research questions are: 1) Can we effectively augment models by explicit supervised retrieval of the relevant KB information to solve the KB-VQA problem? 2) How do task-specific and LLM-based models perform in the integration of visual and external knowledge, and multi-hop reasoning over both sources of information? 3) Is the implicit knowledge of LLMs sufficient for KB-VQA and to what extent it can replace the explicit KB? Our results demonstrate the positive impact of empowering task-specific and LLM models with supervised external and visual knowledge retrieval models. Our findings show that though LLMs are stronger in 1-hop reasoning, they suffer in 2-hop reasoning in comparison with our fine-tuned NN model even if the relevant information from both modalities is available to the model. Moreover, we observed that LLM models outperform the NN model for KB-related questions which confirms the effectiveness of implicit knowledge in LLMs however, they do not alleviate the need for external KB.
Abstract（参考訳）: 我々は、知識に基づく視覚的質問応答の分析を行い、与えられた質問に対して、モデルがそれを視覚的モダリティに根ざし、与えられた大きな知識ベース(KB)から関連する知識を取り出す必要がある。我々の分析には2つの折り畳みがあり、1つはニューラルアーキテクチャを設計し、それらをスクラッチからトレーニングし、もう1つは大規模事前学習言語モデル(LLM)に基づく。私たちの研究の質問は以下のとおりです。 1) KB-VQA問題を解決するために, 関連KB情報の明示的な教師付き検索により, 効果的にモデルを拡張できるか? 2)視覚・外的知識の統合や情報ソース間のマルチホップ推論において,タスク固有モデルとLCMベースモデルはどのように機能するか。 3) LLM の暗黙的知識は KB-VQA に十分で、明示的な KB を置き換えることができる程度に十分か? 本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。以上の結果から,LLMは1ホップの推論では強いが,2ホップの推論では2ホップの推論に苦しむことが明らかとなった。さらに, LLMモデルでは, LLMにおける暗黙的知識の有効性を検証した KB 関連質問に対して, NN モデルよりも優れており, 外部KB の必要性は軽減されない。

関連論文リスト

Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering [55.368681418311894]
既存の知識に基づくビジュアル質問回答 (KBVQA) 手法は、マルチモーダルな大規模言語モデル (MLLM) における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。 KEPO(Knowledge Encouragement Preference Optimization)を用いたHindsight Distilled Reasoning(HinD)フレームワークを提供する。 OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-11-14T10:03:23Z)
Prompting Large Language Models with Partial Knowledge for Answering Questions with Unseen Entities [43.88784275673178]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) におけるパラメトリック知識の補足と置換によって優れた性能を示す我々は,金の推論経路とその変種が,その答えを含む経路を除去することにより,部分的に関連する知識を構築するためにどのように使用されるかを示す。我々の覚醒に基づくアプローチは、組み込みベースの類似性に依存する従来の手法よりも優れた実用的効果を示す。
論文参考訳（メタデータ） (2025-08-02T09:54:46Z)
KScope: A Framework for Characterizing the Knowledge Status of Language Models [19.891459472894528]
LLM知識モードの整合性と正当性に基づく5つの知識状態の分類法を導入する。次に、知識モードに関する仮説を段階的に洗練する統計テストの階層的なフレームワークであるKScopeを提案する。
論文参考訳（メタデータ） (2025-06-09T06:06:05Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。 Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文参考訳（メタデータ） (2024-11-09T15:12:28Z)
Large Language Models as Reliable Knowledge Bases? [60.25969380388974]
大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。 ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
論文参考訳（メタデータ） (2024-07-18T15:20:18Z)
Hierarchical Deconstruction of LLM Reasoning: A Graph-Based Framework for Analyzing Knowledge Utilization [30.349165483935682]
大規模言語モデル(LLM)が推論の知識をどのように利用するのかは、まだよく分かっていない。我々は,DepthQAデータセットを開発し,質問を3つの深さに分解する: (i)概念的知識の想起, (ii)手続き的知識の適用, (iii)戦略的知識の分析。差分パターンは、モデルのキャパシティとトレーニングデータ記憶の可能性にまたがって観察される。
論文参考訳（メタデータ） (2024-06-27T19:29:36Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。我々は,LSMの入力において,その知識を直接拡張することを提案する。我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文参考訳（メタデータ） (2023-06-07T04:15:21Z)
Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-03T13:05:15Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文参考訳（メタデータ） (2022-09-17T08:48:50Z)
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文参考訳（メタデータ） (2021-01-15T08:37:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。