論文の概要: Mem-α: Learning Memory Construction via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25911v1
- Date: Tue, 30 Sep 2025 08:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.060289
- Title: Mem-α: Learning Memory Construction via Reinforcement Learning
- Title(参考訳): Mem-α:強化学習による記憶構築学習
- Authors: Yu Wang, Ryuichi Takanobu, Zhiqi Liang, Yuzhen Mao, Yuanzhe Hu, Julian McAuley, Xiaojian Wu,
- Abstract要約: 大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。
現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。
Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 20.916677456417464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents are constrained by limited context windows, necessitating external memory systems for long-term information understanding. Current memory-augmented agents typically depend on pre-defined instructions and tools for memory updates. However, language models may lack the ability to determine which information to store, how to structure it, and when to update it, especially as memory systems become more complex. This results in suboptimal memory construction and information loss. To this end, we propose Mem-alpha, a reinforcement learning framework that trains agents to effectively manage complex memory systems through interaction and feedback. We also construct a specialized training dataset spanning diverse multi-turn interaction patterns paired with comprehensive evaluation questions designed to teach effective memory management. During training, agents process sequential information chunks, learn to extract and store relevant content, then update the memory system. The reward signal derives from downstream question-answering accuracy over the full interaction history, directly optimizing for memory construction. To illustrate the effectiveness of our training framework, we design a memory architecture comprising core, episodic, and semantic components, equipped with multiple tools for memory operations. Empirical evaluation demonstrates that Mem-alpha achieves significant improvements over existing memory-augmented agent baselines. Despite being trained exclusively on instances with a maximum length of 30k tokens, our agents exhibit remarkable generalization to sequences exceeding 400k tokens, over 13x the training length, highlighting the robustness of Mem-alpha.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、長期情報理解のために外部メモリシステムを必要とする限られたコンテキストウィンドウによって制約される。
現在のメモリ拡張エージェントは、通常、メモリ更新のための事前に定義された命令とツールに依存する。
しかし、言語モデルには、どの情報を格納するか、どのように構成するか、いつ更新するかを判断する能力がないかもしれない。
これにより、最適なメモリ構築と情報損失が発生する。
この目的のために,エージェントがインタラクションやフィードバックを通じて複雑なメモリシステムを管理することを効果的に訓練する強化学習フレームワークであるMem-alphaを提案する。
また,効率的なメモリ管理の指導を目的とした総合的な評価質問と組み合わせて,多様なマルチターンインタラクションパターンにまたがる特別なトレーニングデータセットを構築した。
トレーニング中、エージェントはシーケンシャルな情報チャンクを処理し、関連するコンテンツを抽出して保存し、メモリシステムを更新します。
報酬信号は、完全な相互作用履歴に対する下流の質問応答精度から導出され、直接メモリ構成に最適化される。
トレーニングフレームワークの有効性を説明するため,コア,エピソード,セマンティックコンポーネントからなるメモリアーキテクチャを設計し,複数のメモリ操作ツールを備える。
経験的評価では、Mem-alphaは既存のメモリ拡張エージェントベースラインよりも大幅に改善されている。
最大長が30kのインスタンスに特化してトレーニングされているにもかかわらず、我々のエージェントは400kのトークンを超えるシーケンスに顕著な一般化を示し、トレーニング長の13倍を超え、Mem-alphaの堅牢性を強調した。
関連論文リスト
- Graph-based Agent Memory: Taxonomy, Techniques, and Applications [63.70340159016138]
メモリはLarge Language Model(LLM)ベースのエージェントの中核モジュールとして出現する。
さまざまなパラダイムの中でグラフは、関係依存をモデル化する本質的な能力のため、エージェントメモリの強力な構造として際立っている。
本調査では, エージェントメモリの総合的な検討について, グラフベースの観点から述べる。
論文 参考訳(メタデータ) (2026-02-05T13:49:05Z) - MetaMem: Evolving Meta-Memory for Knowledge Utilization through Self-Reflective Symbolic Optimization [57.17751568928966]
自己進化型メタメモリでメモリシステムを拡張するフレームワークであるMetaMemを提案する。
メタメモリ最適化の間、MetaMemは異なるタスク間で伝達可能な知識利用経験を反復的に蒸留する。
大規模な実験ではMetaMemの有効性が示され、これは強いベースラインを3.6%以上上回っている。
論文 参考訳(メタデータ) (2026-01-27T04:46:23Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - AtomMem : Learnable Dynamic Agentic Memory with Atomic Memory Operation [40.1709026042412]
本稿では,メモリ管理を動的意思決定問題として再設計するAtomMemを提案する。
教師付き微調整と強化学習を組み合わせることで、AtomMemは、メモリの振る舞いをオーケストレーションする自律的なタスク整合ポリシーを学ぶ。
3つの長期コンテキストベンチマークの実験結果から、トレーニング済みのAtomMem-8Bは、従来の静的ワークフローメモリメソッドよりも一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2026-01-13T08:22:28Z) - Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。
以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文 参考訳(メタデータ) (2025-10-27T18:03:50Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [59.16831804985279]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
この制限に対処する最近の取り組みは、外部メモリバンクでLLMを増強することが多いが、既存のパイプラインのほとんどは静的で学習されている。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - Multiple Memory Systems for Enhancing the Long-term Memory of Agent [9.43633399280987]
MemoryBankやA-MEMといった既存の手法は、記憶されているメモリの質が劣っている。
我々は認知心理学理論にインスパイアされた多重記憶システムを設計した。
論文 参考訳(メタデータ) (2025-08-21T06:29:42Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - A-MEM: Agentic Memory for LLM Agents [42.50876509391843]
大規模言語モデル(LLM)エージェントは、歴史的経験を活用するためにメモリシステムを必要とする。
現在のメモリシステムは基本的なストレージと検索を可能にするが、洗練されたメモリ構造は欠如している。
本稿では, LLMエージェントに対して, エージェント方式で動的に記憶を整理できる新しいエージェントメモリシステムを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:36:14Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。