論文の概要: Memento 2: Learning by Stateful Reflective Memory
- arxiv url: http://arxiv.org/abs/2512.22716v2
- Date: Wed, 31 Dec 2025 23:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.582542
- Title: Memento 2: Learning by Stateful Reflective Memory
- Title(参考訳): Memento 2: ステートフルなリフレクティブメモリによる学習
- Authors: Jun Wang,
- Abstract要約: 本研究では,多言語モデル(LLM)に基づくエージェントにおける連続学習について検討する。
我々は、リフレクション、エージェントが過去の経験を再考し、将来の行動をどのように選択するかを調整する能力に焦点を当てる。
我々は、エージェントがエピソード記憶を維持・更新し、新しい体験を記憶に書き込むことと、関連する事例を読み取って意思決定をガイドする「ステートフル・リフレクティブ・意思決定プロセス(SRDP)」を紹介した。
- 参考スコア(独自算出の注目度): 4.7052412989773975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study continual learning in large language model (LLM) based agents that integrate episodic memory with reinforcement learning. We focus on reflection, the ability of an agent to revisit past experience and adjust how it selects future actions, as the central mechanism for continual adaptation without fine tuning model weights. To formalise this, we introduce the Stateful Reflective Decision Process (SRDP), in which an agent maintains and updates episodic memory and alternates between writing new experiences to memory and reading relevant cases to guide decisions. This framework casts reflective memory dynamics as part of the decision process itself and makes them amenable to control and learning analysis. Building on this formulation, we develop a Read-Write Reflective Learning algorithm that incorporates memory retrieval into a soft policy iteration procedure and prove that it converges. We further show that as memory grows and more densely covers the task environment, the resulting policy approaches optimality. Our framework unifies memory based reasoning with reinforcement learning and provides a formal foundation for LLM agents capable of continual, experience driven learning.
- Abstract(参考訳): 本研究では,多言語モデル(LLM)に基づくエージェントにおける連続学習について検討する。
我々は,モデル重みを微調整することなく連続的適応のための中心となるメカニズムとして,過去の経験を再考し,将来の行動の選択方法を調整するエージェントの能力であるリフレクションに焦点をあてる。
これを形式化するために、エージェントがエピソード記憶を維持・更新し、新しい体験を記憶に書き込むことと、関連する事例を読み取って意思決定をガイドする「ステートフル・リフレクティブ・決定プロセス(SRDP)」を導入する。
このフレームワークは、リフレクティブメモリのダイナミクスを決定プロセスの一部とすることで、分析の制御と学習を可能にします。
この定式化に基づいて、メモリ検索をソフトポリシーの反復手順に組み込んだ読み書き反射学習アルゴリズムを開発し、それが収束することを証明する。
さらに、メモリの増大とタスク環境の密集化により、結果のポリシーが最適性に近づくことを示す。
本フレームワークは,記憶に基づく推論と強化学習を融合し,連続的,経験駆動学習が可能なLCMエージェントの形式的基盤を提供する。
関連論文リスト
- Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks [23.201035830828726]
大規模言語モデルは、長期のエージェントタスクにおいて課題に直面します。
既存のワーキングメモリメソッドは、エージェントのコアポリシーから切り離された外部メカニズムに依存している。
本稿では,一貫したポリシーの一部として明示的な編集操作を実行することで,エージェントが作業メモリを積極的に管理する新しいフレームワーク,Memory-as-Actionを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:57Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。
オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-02-15T07:06:10Z) - Shattering the Agent-Environment Interface for Fine-Tuning Inclusive
Language Models [24.107358120517336]
本研究では、事前学習された言語モデルが、それ自体がポリシー、報酬関数、遷移関数である、という新しい視点を採用する。
即ち、報酬学習と言語モデルの微調整は、さらに下流のポリシー最適化を必要とせずに、共同で直接行うことができる。
論文 参考訳(メタデータ) (2023-05-19T06:21:15Z) - On the Relationship Between Variational Inference and Auto-Associative
Memory [68.8204255655161]
本フレームワークでは, 変動推論に対する異なるニューラルネットワークアプローチが適用可能であるかを検討する。
得られたアルゴリズムをCIFAR10とCLEVRの画像データセットで評価し,他の連想記憶モデルと比較した。
論文 参考訳(メタデータ) (2022-10-14T14:18:47Z) - Generalized Reinforcement Learning: Experience Particles, Action
Operator, Reinforcement Field, Memory Association, and Decision Concepts [2.398608007786179]
本稿では,ベイズ風の一般強化学習フレームワークを提案する。
まず,不確実性や流動挙動に対処するためのパラメトリック・アクション・モデルを構築した。
次に,学習者の作業記憶に保持される「偏極化経験粒子」によって確立された物理に着想を得た構成体として,強化場の概念を導入する。
論文 参考訳(メタデータ) (2022-08-09T15:05:15Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。