論文の概要: Reinforcement Learning Enhanced Multi-hop Reasoning for Temporal Knowledge Question Answering
- arxiv url: http://arxiv.org/abs/2601.01195v1
- Date: Sat, 03 Jan 2026 14:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.072034
- Title: Reinforcement Learning Enhanced Multi-hop Reasoning for Temporal Knowledge Question Answering
- Title(参考訳): 時間的知識質問応答のための強化型マルチホップ推論
- Authors: Wuzhenghong Wen, Chao Xue, Su Pan, Yuwei Sun, Minlong Peng,
- Abstract要約: 時間的知識グラフ質問応答(TKGQA)は、時間的制約のあるエンティティ関係に対するマルチホップ推論を含む。
本稿では,MRE(Multi-hop reasoning enhanced, MRE)フレームワークを提案する。
提案したMREモデルが,複雑なマルチホップクエリ処理における最新技術(SOTA)アプローチを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 16.044892597109563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal knowledge graph question answering (TKGQA) involves multi-hop reasoning over temporally constrained entity relationships in the knowledge graph to answer a given question. However, at each hop, large language models (LLMs) retrieve subgraphs with numerous temporally similar and semantically complex relations, increasing the risk of suboptimal decisions and error propagation. To address these challenges, we propose the multi-hop reasoning enhanced (MRE) framework, which enhances both forward and backward reasoning to improve the identification of globally optimal reasoning trajectories. Specifically, MRE begins with prompt engineering to guide the LLM in generating diverse reasoning trajectories for a given question. Valid reasoning trajectories are then selected for supervised fine-tuning, serving as a cold-start strategy. Finally, we introduce Tree-Group Relative Policy Optimization (T-GRPO), a recursive, tree-structured learning-by-exploration approach. At each hop, exploration establishes strong causal dependencies on the previous hop, while evaluation is informed by multi-path exploration feedback from subsequent hops. Experimental results on two TKGQA benchmarks indicate that the proposed MRE-based model consistently surpasses state-of-the-art (SOTA) approaches in handling complex multi-hop queries. Further analysis highlights improved interpretability and robustness to noisy temporal annotations.
- Abstract(参考訳): 時間的知識グラフ質問応答(TKGQA)は、与えられた質問に答えるために知識グラフ内の時間的制約のあるエンティティ関係に対するマルチホップ推論を含む。
しかし、各ホップにおいて、大きな言語モデル(LLM)は、時間的に類似し、意味論的に複雑な関係を持つサブグラフを検索し、最適下決定やエラーの伝播のリスクを増大させる。
これらの課題に対処するために,グローバルな最適推論軌跡の同定を改善するために,前方推論と後方推論の両方を強化するマルチホップ推論拡張(MRE)フレームワークを提案する。
具体的には、MREは、与えられた質問に対する多様な推論軌跡を生成する上で、LLMを導くための急進的なエンジニアリングから始まる。
次に、教師付き微調整に有効な推論軌跡が選択され、コールドスタート戦略として機能する。
最後に,木群相対政策最適化(T-GRPO)を紹介した。
各ホップにおいて、探索は前のホップに対する強い因果依存性を確立し、評価はその後のホップからのマルチパス探索フィードバックによって通知される。
2つのTKGQAベンチマークの実験結果から、提案したMREベースのモデルは、複雑なマルチホップクエリの処理における最先端(SOTA)アプローチを一貫して上回っていることが示唆された。
さらに分析は、ノイズのある時間的アノテーションに対する解釈可能性と堅牢性の向上を強調している。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - ProgRAG: Hallucination-Resistant Progressive Retrieval and Reasoning over Knowledge Graphs [2.9539912037183362]
大きな言語モデル(LLM)は強い推論能力を示すが、幻覚と限られた透明性に苦しむ。
本稿では,複雑な質問をサブクエストに分解し,部分的推論経路を拡張するマルチホップ知識グラフ質問応答(KGQA)フレームワークであるProgRAGを提案する。
3つのよく知られたデータセットの実験により、ProgRAGはマルチホップKGQAで既存のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-13T12:14:36Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Review-Then-Refine: A Dynamic Framework for Multi-Hop Question Answering with Temporal Adaptability [19.722009684115434]
Retrieve-augmented Generation (RAG) フレームワークがマルチホップ質問応答(QA)タスクの有望なソリューションとして登場した。
既存のRAGフレームワークは、通常、検索対象のパラダイムに従っており、時間情報を持つマルチホップQAと競合することが多い。
本稿では,マルチホップQAシナリオにおけるLLMの性能向上を目的とした,Review-then-refineと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T17:48:23Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。