論文の概要: Memento-II: Learning by Stateful Reflective Memory
- arxiv url: http://arxiv.org/abs/2512.22716v1
- Date: Sat, 27 Dec 2025 22:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.188761
- Title: Memento-II: Learning by Stateful Reflective Memory
- Title(参考訳): Memento-II:ステートフルリフレクティブメモリによる学習
- Authors: Jun Wang,
- Abstract要約: 大規模言語モデルエージェントにおける連続的および経験的学習のための理論的枠組みを提案する。
このフレームワークはリフレクションを、バックプロパゲーションやモデルファインチューニングを使わずに、インタラクションを通じてエージェントを適応させるキーメカニズムとして特定する。
このプロセスは、拡張された状態メモリ表現に対して、等価なマルコフ決定プロセスを誘導することを示す。
- 参考スコア(独自算出の注目度): 4.7052412989773975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a theoretical framework for continual and experiential learning in large language model agents that integrates episodic memory with reinforcement learning. The framework identifies reflection as the key mechanism that enables agents to adapt through interaction without back propagation or model fine tuning, thereby relaxing the conventional separation between training and deployment.To formalise this process, we introduce the Stateful Reflective Decision Process, which models reflective learning as a two stage read write interaction with episodic memory. Writing stores interaction outcomes and corresponds to policy evaluation, while reading retrieves relevant past cases and corresponds to policy improvement. We show that this process induces an equivalent Markov decision process over augmented state memory representations, allowing the use of classical tools from dynamic programming and reinforcement learning. We further instantiate the framework using entropy regularised policy iteration and establish convergence guarantees. As episodic memory grows and achieves sufficient coverage of the state space, the resulting policy converges to the optimal solution. This work provides a principled foundation for memory augmented and retrieval based language model agents capable of continual adaptation without parameter updates.
- Abstract(参考訳): 本稿では,拡張学習とエピソード記憶を統合した大規模言語モデルエージェントにおける連続的・経験的学習のための理論的枠組みを提案する。
本フレームワークは, 反射学習を2段階の読み書きとエピソードメモリとの相互作用としてモデル化する「ステートフル・リフレクティブ・ディクシジョン・プロセス」を導入する。
書き込みは相互作用の結果を格納し、政策評価に対応し、読み込みは関連する過去の事例を検索し、政策改善に対応する。
このプロセスは、動的プログラミングや強化学習といった古典的なツールを利用できるように、拡張された状態メモリ表現よりも同等なマルコフ決定プロセスをもたらすことを示す。
さらに、エントロピー規則化されたポリシーの繰り返しを用いてフレームワークをインスタンス化し、収束保証を確立する。
エピソード記憶が成長し、状態空間の十分なカバレッジを達成すると、結果として得られるポリシーは最適解に収束する。
この研究は、メモリ拡張と検索に基づく言語モデルエージェントの基本的な基盤を提供し、パラメータの更新なしに連続的な適応を可能にする。
関連論文リスト
- Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.201035830828726]
大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。
既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。
本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:57Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。
オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-02-15T07:06:10Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - On the Relationship Between Variational Inference and Auto-Associative
Memory [68.8204255655161]
本フレームワークでは, 変動推論に対する異なるニューラルネットワークアプローチが適用可能であるかを検討する。
得られたアルゴリズムをCIFAR10とCLEVRの画像データセットで評価し,他の連想記憶モデルと比較した。
論文 参考訳(メタデータ) (2022-10-14T14:18:47Z) - Generalized Reinforcement Learning: Experience Particles, Action
Operator, Reinforcement Field, Memory Association, and Decision Concepts [2.398608007786179]
本稿では,ベイズ風の一般強化学習フレームワークを提案する。
まず,不確実性や流動挙動に対処するためのパラメトリック・アクション・モデルを構築した。
次に,学習者の作業記憶に保持される「偏極化経験粒子」によって確立された物理に着想を得た構成体として,強化場の概念を導入する。
論文 参考訳(メタデータ) (2022-08-09T15:05:15Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。