論文の概要: StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
- arxiv url: http://arxiv.org/abs/2510.06638v1
- Date: Wed, 08 Oct 2025 04:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.299799
- Title: StaR-KVQA: Structured Reasoning Traces for Implicit-Knowledge Visual Question Answering
- Title(参考訳): StaR-KVQA:暗黙的視覚質問応答のための構造的推論トレース
- Authors: Zhihao Wen, Wenkang Wei, Yuan Fang, Xingtong Yu, Hui Zhang, Weicheng Zhu, Xin Zhang,
- Abstract要約: KVQA (Knowledge-based Visual Question Answering) は、画像に実体を接地し、事実的知識を推論するモデルを必要とする。
暗黙的知識変種であるIK-KVQAについて検討し,マルチモーダル大言語モデル(MLLM)が唯一の知識源である。
構造的トレースを監督する StaR-KVQA について述べる。
- 参考スコア(独自算出の注目度): 18.01551671948317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-based Visual Question Answering (KVQA) requires models to ground entities in images and reason over factual knowledge. We study its implicit-knowledge variant, IK-KVQA, where a multimodal large language model (MLLM) is the sole knowledge source, without external retrieval. Yet, MLLMs lack explicit reasoning supervision and produce inconsistent justifications, and generalize poorly after standard supervised fine-tuning (SFT). We present StaR-KVQA (Structured Reasoning Traces for IK-KVQA), which supervises structured traces - dual symbolic relation paths plus path-grounded natural-language explanations - so that reasoning becomes transparent and verifiable. With one open-source MLLM, StaR-KVQA constructs and selects path-grounded reasoning traces to form a trace-enriched dataset, then fine-tunes via structured self-distillation to align generation with supervision; no external retrievers, verifiers, or curated knowledge bases (KBs) are used, traces are built offline, and inference is a single autoregressive pass. Across benchmarks, StaR-KVQA improves both accuracy and interpretability, achieving up to +11.3% higher answer accuracy on OK-VQA over the strongest baseline while exhibiting robust cross-domain generalization.
- Abstract(参考訳): KVQA (Knowledge-based Visual Question Answering) は、画像に実体を接地し、事実的知識を推論するモデルを必要とする。
IK-KVQAでは,マルチモーダル大言語モデル(MLLM)が唯一の知識源であり,外的検索は行わない。
しかし、MLLMは明確な推論の監督がなく、矛盾する正当化を生み出し、標準監督微調整(SFT)の後に一般化が不十分である。
本稿では, 構造的トレースを監督する StaR-KVQA (Structured Reasoning Traces for IK-KVQA) について述べる。
オープンソースのMLLMで、StaR-KVQAは、トレース強化データセットを形成するためにパスグラウンドの推論トレースを構築、選択し、その後、構造化された自己蒸留によって生成を監督と整合させ、外部レトリバー、検証器、またはキュレートされた知識ベース(KB)は使用せず、トレースはオフラインで構築され、推論は単一の自己回帰パスである。
ベンチマーク全体では、StaR-KVQAは精度と解釈性の両方を改善し、最強のベースライン上でのOK-VQAの回答精度は+11.3%向上し、堅牢なクロスドメインの一般化を示す。
関連論文リスト
- A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - KG-TRACES: Enhancing Large Language Models with Knowledge Graph-constrained Trajectory Reasoning and Attribution Supervision [8.025866693669622]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な進歩を遂げてきたが、複雑な推論問題におけるそれらの性能は、説明責任と信頼性の欠如によって妨げられている。
我々は,LLMの推論能力を高めるために,知識グラフ制約トラジェクトリ推論属性と連鎖説明スーパービジョン(KG-TRACES)を提案する。
KG-TRACES は,(1) 記号関係経路の予測,(2) 完全三重レベル推論経路の予測,(3) 帰属対応推論過程の推論経路の予測を共同で行う。
論文 参考訳(メタデータ) (2025-06-01T02:20:45Z) - KnowTrace: Bootstrapping Iterative Retrieval-Augmented Generation with Structured Knowledge Tracing [64.38243807002878]
我々は、大規模言語モデルにおけるコンテキスト過負荷を軽減するためのエレガントなRAGフレームワークであるKnowTraceを紹介する。
KnowTraceは、必要な知識三つ子を自律的に追跡して、入力された質問に関連する特定の知識グラフを整理する。
3つのマルチホップ質問応答ベンチマークで、既存のメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T17:22:20Z) - Self-Reflective Planning with Knowledge Graphs: Enhancing LLM Reasoning Reliability for Question Answering [9.601307470705732]
本稿では,知識グラフと大規模言語モデルを相乗化するフレームワークである自己回帰計画(SRP)を提案する。
計画プロセスにおいて、SRPはまず、ガイドプランニングとリフレクションのための参照を検索する。
推論経路を介してKGから知識を検索した後、検索結果を判断し、回答が正しく検索されるまで推論経路を編集して反復反射を行う。
論文 参考訳(メタデータ) (2025-05-26T01:59:00Z) - Beyond Chains: Bridging Large Language Models and Knowledge Bases in Complex Question Answering [28.898509577087516]
Knowledge Base Question Answering (KBQA)は、KBから構造化された知識を用いて自然言語の質問に答えることを目的としている。
PDRR:Predict, Decompose, Retrieve, Reasonからなる4段階のフレームワークを提案する。
提案手法はまず質問タイプを予測し,その質問を構造化三重項に分解する。その後,KBから関連情報を検索し,LSMをエージェントとして案内し,三重項を推論し,完成させる。
論文 参考訳(メタデータ) (2025-05-20T09:01:52Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for
Knowledge-intensive Question Answering [17.672572064705445]
CoT(Chain-of-Thought)を備えた大規模言語モデル(LLM)は、様々な下流タスクにおいて顕著な推論能力を示している。
我々は、外部知識との相互作用を通じてCoTの推論トレースを検証・修正する、KD-CoT(Knowled-Driven Chain-of-Thought)というフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-25T09:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。