論文の概要: Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.11132v1
- Date: Fri, 14 Nov 2025 10:03:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.531604
- Title: Hindsight Distillation Reasoning with Knowledge Encouragement Preference for Knowledge-based Visual Question Answering
- Title(参考訳): 知識に基づく視覚的質問応答のための知識促進選好を用いた近視蒸留推論
- Authors: Yu Zhao, Ying Zhang, Xuhui Sui, Baohang Zhou, Li Shen, Dacheng Tao,
- Abstract要約: 既存の知識に基づくビジュアル質問回答 (KBVQA) 手法は、マルチモーダルな大規模言語モデル (MLLM) における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。
KEPO(Knowledge Encouragement Preference Optimization)を用いたHindsight Distilled Reasoning(HinD)フレームワークを提供する。
OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 55.368681418311894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KBVQA) necessitates external knowledge incorporation beyond cross-modal understanding. Existing KBVQA methods either utilize implicit knowledge in multimodal large language models (MLLMs) via in-context learning or explicit knowledge via retrieval augmented generation. However, their reasoning processes remain implicit, without explicit multi-step trajectories from MLLMs. To address this gap, we provide a Hindsight Distilled Reasoning (HinD) framework with Knowledge Encouragement Preference Optimization (KEPO), designed to elicit and harness internal knowledge reasoning ability in MLLMs. First, to tackle the reasoning supervision problem, we propose to emphasize the hindsight wisdom of MLLM by prompting a frozen 7B-size MLLM to complete the reasoning process between the question and its ground truth answer, constructing Hindsight-Zero training data. Then we self-distill Hindsight-Zero into Chain-of-Thought (CoT) Generator and Knowledge Generator, enabling the generation of sequential steps and discrete facts. Secondly, to tackle the misalignment between knowledge correctness and confidence, we optimize the Knowledge Generator with KEPO, preferring under-confident but helpful knowledge over the over-confident but unhelpful one. The generated CoT and sampled knowledge are then exploited for answer prediction. Experiments on OK-VQA and A-OKVQA validate the effectiveness of HinD, showing that HinD with elicited reasoning from 7B-size MLLM achieves superior performance without commercial model APIs or outside knowledge.
- Abstract(参考訳): 知識に基づくビジュアル質問回答(KBVQA)は、モダル横断的理解を超えて外部知識を組み込む必要がある。
既存のKBVQAメソッドは、マルチモーダルな大規模言語モデル(MLLM)における暗黙的な知識をコンテキスト内学習または検索拡張生成による明示的な知識を介して利用する。
しかし、それらの推論プロセスは、MLLMからの明示的な多段階の軌跡を伴わないまま、暗黙のままである。
このギャップに対処するため,我々は,MLLMの内部知識推論能力の引き抜きと活用を目的とした,KEPO(Knowledge Encouragement Preference Optimization)を備えたHindsight Distilled Reasoning (HinD)フレームワークを提供する。
まず,7BサイズのMLLMをフリーズして,疑問とその根拠的真理解の間の推論処理を完了させ,Hendsight-Zeroトレーニングデータを構築することにより,MLLMの後方知恵を強調することを提案する。
次に、Hindsight-ZeroをCoT(Chain-of-Thought)ジェネレータとナレッジジェネレータに自己注入し、シーケンシャルステップと離散的な事実の生成を可能にします。
次に,知識の正しさと信頼の相違に対処するために,知識生成をKEPOで最適化する。
生成されたCoTとサンプル知識は、回答予測に利用される。
OK-VQAとA-OKVQAの実験によりHinDの有効性が検証され、7BサイズのMLLMから推論したHinDが商用モデルAPIや外部知識を使わずに優れた性能を発揮することが示された。
関連論文リスト
- What External Knowledge is Preferred by LLMs? Characterizing and Exploring Chain of Evidence in Imperfect Context for Multi-Hop QA [19.78140793942713]
外部知識を取り入れることは、LLMプログラムにおける時代遅れの知識と幻覚を緩和する有望な方法として現れてきた。
本稿は, 好みの外部知識の特徴を特徴付けるとともに, 不完全な文脈における実証的研究を行うことを目的とする。
論文 参考訳(メタデータ) (2024-12-17T07:49:49Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - KnowledgeNavigator: Leveraging Large Language Models for Enhanced
Reasoning over Knowledge Graph [11.808990571175269]
大規模言語モデル(LLM)は、その強力な自然言語理解とゼロショット能力によって、様々な下流タスクにおいて優れたパフォーマンスを達成しているが、LLMは依然として知識制限に悩まされている。
本稿では,知識グラフから外部知識を効率的に正確に検索し,これらの課題に対処する新しいフレームワークであるKnowledgeNavigatorを提案する。
我々は,複数のKGQAベンチマーク上でKnowledgeNavigatorを評価し,そのフレームワークの有効性と一般化を実証した。
論文 参考訳(メタデータ) (2023-12-26T04:22:56Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Structured Knowledge Grounding for Question Answering [0.23068481501673416]
本稿では,知識に基づく質問応答の柔軟性,範囲の広さ,構造的推論に言語と知識を活用することを提案する。
具体的には,動的ホップを用いて関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
論文 参考訳(メタデータ) (2022-09-17T08:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。