論文の概要: Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
- arxiv url: http://arxiv.org/abs/2512.20092v1
- Date: Tue, 23 Dec 2025 06:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.773531
- Title: Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
- Title(参考訳): メモリT1:マルチセッションエージェントにおける時間的推論のための強化学習
- Authors: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong,
- Abstract要約: 強化学習(RL)を用いた時間認識メモリ選択ポリシーを学習するフレームワークであるMemory-T1を紹介する。
Time-Dialogベンチマークでは、Memory-T1が7Bモデルを67.0%に引き上げ、オープンソースモデルの新たな最先端パフォーマンスを確立した。
- 参考スコア(独自算出の注目度): 80.33280979339123
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/
- Abstract(参考訳): 長時間の多セッション対話に対する時間的推論は、会話エージェントにとって重要な能力である。
しかし,既存の研究やパイロットスタディでは,対話履歴の長さが増加し,ノイズを蓄積するにつれて,現在の長期コンテキストモデルでは時間的関連情報を正確に識別することが困難であり,推論性能を著しく損なうことが示されている。
そこで我々は,強化学習(RL)を用いた時間認識メモリ選択ポリシーを学習するフレームワークであるMemory-T1を紹介する。
粗大な戦略を採用し、まず対話履歴を時間的および関連性フィルタを用いて候補セットに刻み込み、続いて正確なエビデンスセッションを選択するRLエージェントを使用する。
マルチレベル報酬関数最適化によるRLトレーニングの導出
(i)正確さに答える
(二)証拠の根拠、及び
(三)時間的整合性
特に、時間的整合性報酬は、セッションレベル(時間的近接)と発話レベル(時間的忠実度)の両方におけるクエリ時間範囲との整合性を評価し、エージェントが微妙な時間的曖昧さを解消できるようにすることにより、密集した信号を提供する。
Time-Dialogベンチマークでは、Memory-T1は7Bモデルを67.0\%に引き上げ、オープンソースモデルの新たな最先端のパフォーマンスを確立し、14Bベースラインを10.2\%向上させた。
アブレーション研究は、時間的一貫性と、報酬を根拠とする証拠が、共に15.0\%のパフォーマンス向上に寄与していることを示している。
さらに、Memory-T1は128kまでの堅牢性を維持しており、ベースラインモデルが崩壊し、広範な対話履歴におけるノイズに対する効果が証明されている。
コードとデータセットはhttps://github.com/Elvin-Yiming-Du/Memory-T1/で公開されている。
関連論文リスト
- Rhea: Role-aware Heuristic Episodic Attention for Conversational LLMs [36.91809943381492]
大規模言語モデル(LLM)はシングルターンタスクにおいて顕著な性能を達成しているが、その効果はマルチターン会話において悪化している。
本稿では,会話履歴を2つの機能独立メモリモジュールに分離する新しいフレームワークRheaを提案する。
実験により、Rheaは性能低下を緩和し、総合的な精度を10点スケールで1.04ポイント向上することが示された。
論文 参考訳(メタデータ) (2025-12-07T14:50:03Z) - Cognitively-Inspired Episodic Memory Architectures for Accurate and Efficient Character AI [1.0742675209112622]
大規模な言語モデルは、対話システムに歴史的な文字を具現化することを約束するが、既存のアプローチは重要なトレードオフに直面している。
本稿では、オフラインデータ拡張と、構造化エピソードメモリからの効率的な並列検索により、この緊張を解消するアーキテクチャを提案する。
本システムでは,2段階検索で0.52秒の即時生成を実現し,生涯データを1,774個の濃厚な初対人記憶に変換する。
論文 参考訳(メタデータ) (2025-11-01T02:26:16Z) - D-SMART: Enhancing LLM Dialogue Consistency via Dynamic Structured Memory And Reasoning Tree [22.420810089099614]
大規模言語モデル(LLM)は、拡張された多ターン対話において、現実的な矛盾と論理的崩壊を示すことが多い。
マルチターン対話の一貫性を維持するために設計されたモデルに依存しないフレームワークであるD--101を提案する。
マルチターン対話の整合性を測定するために,NLIに基づく新しいメトリクスを導入する。
論文 参考訳(メタデータ) (2025-10-15T09:53:11Z) - KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - From What to Respond to When to Respond: Timely Response Generation for Open-domain Dialogue Agents [26.437011114518917]
TimelyChatベンチマークは、適切な時間間隔を予測し、時間条件の応答を生成する言語モデルの能力を評価する。
我々は,時間的コモンセンス知識グラフからラベルのないイベント知識を活用することで,大規模トレーニングデータセットを構築した。
次に、タイムインターバルを積極的に予測し、それらのインターバルに合わせてタイムリーなレスポンスを生成するために設計された対話エージェントであるTimerを訓練する。
論文 参考訳(メタデータ) (2025-06-17T07:56:32Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - On Memory Construction and Retrieval for Personalized Conversational Agents [69.46887405020186]
本稿では,セグメンテーションモデルを導入し,セグメントレベルでメモリバンクを構築するセグメンテーション手法であるSeComを提案する。
実験結果から,SeComは長期会話ベンチマークLOCOMOとLong-MT-Bench+のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2025-02-08T14:28:36Z) - TIMEDIAL: Temporal Commonsense Reasoning in Dialog [43.24596551545824]
本稿では,対話における時間的推論能力について,事前学習した言語モデルについて検討する。
我々は、TIME-DIALを1.1K以上の精巧なダイアログで複数選択のクローゼタスクとして定式化する。
実証的な結果は、最高のパフォーマンスモデルでさえ、人間よりもこのタスクに苦労していることを示している。
論文 参考訳(メタデータ) (2021-06-08T17:59:21Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。