論文の概要: Temp-R1: A Unified Autonomous Agent for Complex Temporal KGQA via Reverse Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.18296v1
- Date: Mon, 26 Jan 2026 09:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.755486
- Title: Temp-R1: A Unified Autonomous Agent for Complex Temporal KGQA via Reverse Curriculum Reinforcement Learning
- Title(参考訳): Temp-R1:Reverse Curriculum Reinforcement Learningによる複合時間KGQAのための統合自律エージェント
- Authors: Zhaoyan Gong, Zhiqiang Liu, Songze Li, Xiaoke Guo, Yuanxiang Liu, Xinle Deng, Zhizhen Liu, Lei Liang, Huajun Chen, Wen Zhang,
- Abstract要約: 時間的知識グラフ質問回答(TKGQA)は、マルチホップ依存と複雑な時間的制約を持つ動的事実に対する洗練された推論を必要とするため、本質的に困難である。
我々は、強化学習を通じて訓練されたTKGQAのための、最初の自律的エンドツーエンドエージェントであるTemp-R1を提案する。
8BパラメータであるTemp-R1はMultiTQとTimelineKGQAの最先端性能を実現し、複雑な問題に対する強いベースラインよりも19.8%向上した。
- 参考スコア(独自算出の注目度): 51.79753403262177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Knowledge Graph Question Answering (TKGQA) is inherently challenging, as it requires sophisticated reasoning over dynamic facts with multi-hop dependencies and complex temporal constraints. Existing methods rely on fixed workflows and expensive closed-source APIs, limiting flexibility and scalability. We propose Temp-R1, the first autonomous end-to-end agent for TKGQA trained through reinforcement learning. To address cognitive overload in single-action reasoning, we expand the action space with specialized internal actions alongside external action. To prevent shortcut learning on simple questions, we introduce reverse curriculum learning that trains on difficult questions first, forcing the development of sophisticated reasoning before transferring to easier cases. Our 8B-parameter Temp-R1 achieves state-of-the-art performance on MultiTQ and TimelineKGQA, improving 19.8% over strong baselines on complex questions. Our work establishes a new paradigm for autonomous temporal reasoning agents. Our code will be publicly available soon at https://github.com/zjukg/Temp-R1.
- Abstract(参考訳): 時間的知識グラフ質問回答(TKGQA)は、マルチホップ依存と複雑な時間的制約を持つ動的事実の高度な推論を必要とするため、本質的に困難である。
既存のメソッドは固定ワークフローと高価なクローズドソースAPIに依存しており、柔軟性とスケーラビリティを制限している。
我々は、強化学習を通じて訓練されたTKGQAのための、最初の自律的エンドツーエンドエージェントであるTemp-R1を提案する。
単一行動推論における認知的過負荷に対処するため、外部行動と並行して特別な内部行動を伴う行動空間を拡大する。
簡単な質問に対するショートカット学習を防止するために,まず難解な質問を訓練するリバースカリキュラム学習を導入する。
我々の8Bパラメータ Temp-R1 は MultiTQ と TimelineKGQA の最先端性能を実現し、複雑な問題に対する強いベースラインよりも19.8%向上した。
我々の研究は、自律的時間的推論エージェントのための新しいパラダイムを確立します。
私たちのコードは近々https://github.com/zjukg/Temp-R1.comで公開されます。
関連論文リスト
- RTQA : Recursive Thinking for Complex Temporal Knowledge Graph Question Answering with Large Language Models [46.789791710884835]
RTQAは、トレーニングを必要とせずにTKGに対する推論を強化するための新しいフレームワークである。
問題をサブプロブレムに分解し、LLMとTKGの知識を用いてボトムアップを解き、フォールトトレランスを改善するためにマルチパス応答アグリゲーションを利用する。
MultiTQとTimelineKGQAベンチマークの実験では、Hits@1が"Multiple"と"Complex"のカテゴリで大幅に改善され、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-09-04T08:25:01Z) - Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? [70.19200858203388]
時間的推論は、世界を理解するための大きな言語モデルの基本である。
CoTempQAは4つの時間的シナリオを含むベンチマークである。
実験の結果,LLMの性能と人間レベルの推論との間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-06-13T12:56:21Z) - Self-Improvement Programming for Temporal Knowledge Graph Question Answering [31.33908040172437]
時間的知識グラフ質問回答(TKGQA)は、時間的知識グラフ(TKG)に対する時間的意図で質問に答えることを目的としている。
既存のエンドツーエンドの手法は、質問や候補者の回答の埋め込みを学習することで、時間制約を暗黙的にモデル化する。
TKGQA(Prog-TQA)のための新しい自己改善プログラミング手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:14:27Z) - ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent [50.508669199496474]
外部知識に基づいて推論と行動を行うReAct-style LLMエージェントを開発した。
エージェントをReSTライクな手法で改良し,従来の軌道上で反復的に訓練する。
引き起こされた大きなモデルから始まり、アルゴリズムのたった2イテレーションの後に、微調整された小さなモデルを生成することができる。
論文 参考訳(メタデータ) (2023-12-15T18:20:15Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - AutoSTL: Automated Spatio-Temporal Multi-Task Learning [17.498339023562835]
本稿では,タスク間の依存性を活用すべく,高度な時間的操作からなるスケーラブルなアーキテクチャを提案する。
我々のモデルは内在核融合重量の演算を自動的に割り当てる。
AutoSTLは最初の自動時空間マルチタスク学習法である。
論文 参考訳(メタデータ) (2023-04-16T10:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。