論文の概要: Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory
- arxiv url: http://arxiv.org/abs/2603.16862v1
- Date: Tue, 17 Mar 2026 17:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.471501
- Title: Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory
- Title(参考訳): Chronos: 長期記憶のための構造化イベント検索機能付き時間認識対話エージェント
- Authors: Sahil Sen, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah,
- Abstract要約: 会話型AIのための時間認識メモリフレームワークであるChronosを紹介する。
Chronosは生の対話を、解決された日時範囲とエンティティエイリアスを持つ主観的動詞オブジェクトイベントに分解する。
クエリ時に、Chronosは動的プロンプトを適用して、各質問に対して調整された検索ガイダンスを生成する。
- 参考スコア(独自算出の注目度): 0.7723674433972977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have enabled conversational AI agents to engage in extended multi-turn interactions spanning weeks or months. However, existing memory systems struggle to reason over temporally grounded facts and preferences that evolve across months of interaction and lack effective retrieval strategies for multi-hop, time-sensitive queries over long dialogue histories. We introduce Chronos, a novel temporal-aware memory framework that decomposes raw dialogue into subject-verb-object event tuples with resolved datetime ranges and entity aliases, indexing them in a structured event calendar alongside a turn calendar that preserves full conversational context. At query time, Chronos applies dynamic prompting to generate tailored retrieval guidance for each question, directing the agent on what to retrieve, how to filter across time ranges, and how to approach multi-hop reasoning through an iterative tool-calling loop over both calendars. We evaluate Chronos with 8 LLMs, both open-source and closed-source, on the LongMemEvalS benchmark comprising 500 questions spanning six categories of dialogue history tasks. Chronos Low achieves 92.60% and Chronos High scores 95.60% accuracy, setting a new state of the art with an improvement of 7.67% over the best prior system. Ablation results reveal the events calendar accounts for a 58.9% gain on the baseline while all other components yield improvements between 15.5% and 22.3%. Notably, Chronos Low alone surpasses prior approaches evaluated under their strongest model configurations.
- Abstract(参考訳): 近年のLarge Language Models (LLM) の進歩により、会話型AIエージェントは数週間から数ヶ月にわたって、多ターンインタラクションを拡張できるようになった。
しかし、既存のメモリシステムは、数ヶ月にわたるインタラクションを通じて進化し、長い対話履歴に対するマルチホップで時間に敏感なクエリに対する効果的な検索戦略が欠如している、時間的に根ざした事実や嗜好を推論するのに苦労している。
そこで我々はChronosという新しい時間対応メモリフレームワークを紹介した。これは、生の対話を日付範囲とエンティティエイリアスを含む主観的なイベントタプルに分解し、完全な会話コンテキストを保存するターンカレンダーと共に構造化されたイベントカレンダーにインデックス付けする。
クエリ時に、Chronosは動的プロンプトを適用して、各質問の調整された検索ガイダンスを生成し、エージェントに何を検索するか、時間範囲をまたいでフィルタする方法、そして両方のカレンダー上で反復ツール呼び出しループを通じてマルチホップ推論にどのようにアプローチするかを指示する。
我々は、LongMemEvalSベンチマークにおいて、Chronosをオープンソースとクローズドソースの両方で8つのLLMで評価し、対話履歴タスクの6つのカテゴリにまたがる500の質問について検討した。
クロノス・ローは92.60%を獲得し、クロノス・ハイは95.60%の精度を記録し、最先端のシステムよりも7.67%向上した。
アブレーションの結果、カレンダーはベースラインで58.9%上昇し、他の全てのコンポーネントは15.5%から22.3%改善した。
特にChronos Lowは、最強のモデル構成で評価された従来のアプローチを上回る。
関連論文リスト
- Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents [80.33280979339123]
強化学習(RL)を用いた時間認識メモリ選択ポリシーを学習するフレームワークであるMemory-T1を紹介する。
Time-Dialogベンチマークでは、Memory-T1が7Bモデルを67.0%に引き上げ、オープンソースモデルの新たな最先端パフォーマンスを確立した。
論文 参考訳(メタデータ) (2025-12-23T06:37:29Z) - A Question Answering Dataset for Temporal-Sensitive Retrieval-Augmented Generation [40.00268164578221]
ChronoQAは中国の質問応答のための大規模なベンチマークデータセットである。
絶対、集約、および相対時間型を明示的および暗黙的な時間表現でカバーする5,176の高品質な質問を含んでいる。
論文 参考訳(メタデータ) (2025-08-17T08:12:59Z) - LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [59.12542274007847]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。
LoopServeは、既存のベースラインに比べて一貫して優れた効率を実現している。
論文 参考訳(メタデータ) (2025-07-18T06:12:08Z) - From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents [79.87304940020256]
大言語モデル(LLM)は会話エージェントで広く採用されている。
MemGASは、多粒度アソシエーション、適応選択、検索を構築することにより、メモリ統合を強化するフレームワークである。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Toward Conversational Agents with Context and Time Sensitive Long-term Memory [8.085414868117917]
最近まで、RAGに関するほとんどの研究は、ウィキペディアのような巨大なテキストデータベースからの情報検索に重点を置いてきた。
我々は,静的なデータベース検索と比較して,長文の対話データからの効果的な検索は2つの問題に直面していると論じる。
我々は、最近の長文でシミュレートされた会話のデータセットの上に構築された、あいまいで時間に基づく質問の新しいデータセットを生成する。
論文 参考訳(メタデータ) (2024-05-29T18:19:46Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models [30.48902594738911]
長い会話をすると、大きな言語モデル(LLM)は過去の情報を思い出さず、一貫性のない応答を生成する傾向がある。
本稿では,長期記憶能力を高めるために,大規模言語モデル(LLM)を用いて要約/メモリを生成することを提案する。
論文 参考訳(メタデータ) (2023-08-29T04:59:53Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。