論文の概要: TSUBASA: Improving Long-Horizon Personalization via Evolving Memory and Self-Learning with Context Distillation
- arxiv url: http://arxiv.org/abs/2604.07894v1
- Date: Thu, 09 Apr 2026 07:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.756366
- Title: TSUBASA: Improving Long-Horizon Personalization via Evolving Memory and Self-Learning with Context Distillation
- Title(参考訳): TSUBASA:コンテキスト蒸留による記憶と自己学習の進化による長期的パーソナライゼーションの改善
- Authors: Xinliang Frederick Zhang, Lu Wang,
- Abstract要約: 本稿では,動的メモリ進化によるメモリ書き込み改善と,自己学習によるメモリ読み込みによるユーザエクスペリエンスの内在化を目的とした,2段階のアプローチであるTSUBASAを紹介する。
Qwen-3 モデルファミリ (4Bから32B) を用いた長期ベンチマークの大規模な評価は、TSUBASAの有効性を検証し、主にメモリ書き込みに依存する競合するメモリ拡張システムを上回った。
- 参考スコア(独自算出の注目度): 6.898745685021223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized large language models (PLLMs) have garnered significant attention for their ability to align outputs with individual's needs and preferences. However, they still struggle with long-horizon tasks, such as tracking a user's extensive history of conversations or activities. Existing memory mechanisms often fail to capture evolving behaviors, and RAG paradigms are trapped by a quality-efficiency tradeoff. Meanwhile, parametric adaptation is bottlenecked by train-inference gap due to the scarcity of labeled data. To enhance the long-horizon capabilities of PLLMs, we introduce TSUBASA, a two-pronged approach designed to improve memory writing via dynamic memory evolution, and memory reading via self-learning with a context distillation objective to internalize user experiences. Extensive evaluations on long-horizon benchmarks using the Qwen-3 model family (4B to 32B) validate the effectiveness of TSUBASA, surpassing competitive memory-augmented systems that rely primarily on memory writing, such as Mem0 and Memory-R1. Our analyses further confirms that TSUBASA breaks the quality-efficiency barrier to achieve Pareto improvements, delivering robust, high-fidelity personalization with a reduced token budget.
- Abstract(参考訳): パーソナライズされた大規模言語モデル(PLLM)は、個人のニーズや好みとアウトプットを一致させる能力に対して、大きな注目を集めている。
しかし、ユーザによる会話やアクティビティの広範な履歴の追跡など、長期的なタスクには依然として苦労している。
既存のメモリメカニズムは進化する振る舞いをキャプチャできないことが多く、RAGパラダイムは品質と効率のトレードオフによって閉じ込められている。
一方、パラメトリック適応はラベル付きデータの不足により列車の干渉ギャップによってボトルネックとなる。
PLLMの長期的機能を高めるために,動的メモリ進化によるメモリ書き込みを改善するための2段階のアプローチであるTSUBASAと,コンテキスト蒸留によるユーザエクスペリエンスの内在化を目的とした自己学習によるメモリ読み込みを導入する。
Qwen-3 モデルファミリ (4Bから32B) を用いた長期ベンチマークの広範囲な評価は、Mem0 や Memory-R1 のようなメモリ書き込みに大きく依存する競合するメモリ拡張システムよりも、TSUBASA の有効性を検証する。
我々はさらに,TSUBASAがパレートの改善を達成するための品質効率障壁を破り,トークン予算を削減した堅牢で高忠実なパーソナライゼーションを実現することを確認した。
関連論文リスト
- AMemGym: Interactive Memory Benchmarking for Assistants in Long-Horizon Conversations [61.6579785305668]
AMemGymは、メモリ駆動型パーソナライゼーションのためのオンライン評価と最適化を可能にする対話型環境である。
我々のフレームワークは、対話エージェントのメモリ能力を向上するためのスケーラブルで診断に富んだ環境を提供する。
論文 参考訳(メタデータ) (2026-03-02T15:15:11Z) - Mem-T: Densifying Rewards for Long-Horizon Memory Agents [23.19373149519922]
我々は,動的更新やストリーミング入力によるマルチターン検索を行うために,軽量な階層型メモリデータベースと対話する自律メモリエージェントMem-Tを紹介する。
また,木誘導型強化学習フレームワークであるMoT-GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-30T14:23:33Z) - MetaMem: Evolving Meta-Memory for Knowledge Utilization through Self-Reflective Symbolic Optimization [57.17751568928966]
自己進化型メタメモリでメモリシステムを拡張するフレームワークであるMetaMemを提案する。
メタメモリ最適化の間、MetaMemは異なるタスク間で伝達可能な知識利用経験を反復的に蒸留する。
大規模な実験ではMetaMemの有効性が示され、これは強いベースラインを3.6%以上上回っている。
論文 参考訳(メタデータ) (2026-01-27T04:46:23Z) - Fine-Mem: Fine-Grained Feedback Alignment for Long-Horizon Memory Management [63.48041801851891]
Fine-Memは、きめ細かいフィードバックアライメントのために設計された統一されたフレームワークである。
MemalphaとMemoryAgentBenchの実験は、Fin-Memが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-13T11:06:17Z) - HiMem: Hierarchical Long-Term Memory for LLM Long-Horizon Agents [3.9396865837159822]
HiMemは、長距離対話のための階層的長期記憶フレームワークである。
メモリ構築、検索、持続的なインタラクション中の動的更新をサポートする。
その結果、HiMemは、精度、一貫性、長期的な推論において、代表的ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-10T01:26:01Z) - Dynamic Affective Memory Management for Personalized LLM Agents [1.7600011132381626]
情緒的シナリオのための新しいメモリ管理システムを提案する。
本システムは,パーソナライズ,論理コヒーレンス,精度において優れた性能を発揮する。
我々の研究は、長期記憶システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-10-31T12:12:51Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - SURGEON: Memory-Adaptive Fully Test-Time Adaptation via Dynamic Activation Sparsity [30.260783715373382]
テスト時間適応(TTA)は、未ラベルのターゲットデータにオンラインで適応することで、ディープモデルの性能を向上させるために出現している。
しかし、特にリソース制約のある端末におけるメモリコストは、ほとんどの後方プロパゲーションベースのTTAメソッドの効果的な展開を妨げる。
メモリの制約に対処するため,SURGEONを導入する。
論文 参考訳(メタデータ) (2025-03-26T09:27:09Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。