論文の概要: Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2604.13085v1
- Date: Thu, 02 Apr 2026 22:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.672619
- Title: Adaptive Memory Crystallization for Autonomous AI Agent Learning in Dynamic Environments
- Title(参考訳): 動的環境における自律型AIエージェント学習のための適応メモリ結晶化
- Authors: Rajat Khanda, Mohammad Baqar Sambuddha Chakrabarti, Satyasaran Changdar,
- Abstract要約: 本稿では、強化学習における漸進的経験強化のためのメモリアーキテクチャである適応記憶結晶化(AMC)を提案する。
AMCは概念的には、シナプス的タグ付けとキャプチャ(STC)理論の定性的構造に着想を得ている。
AMCはメモリを連続結晶化プロセスとしてモデル化し、経験は多目的ユーティリティ信号に従ってプラスチックから安定状態へ移行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Autonomous AI agents operating in dynamic environments face a persistent challenge: acquiring new capabilities without erasing prior knowledge. We present Adaptive Memory Crystallization (AMC), a memory architecture for progressive experience consolidation in continual reinforcement learning. AMC is conceptually inspired by the qualitative structure of synaptic tagging and capture (STC) theory, the idea that memories transition through discrete stability phases, but makes no claim to model the underlying molecular or synaptic mechanisms. AMC models memory as a continuous crystallization process in which experiences migrate from plastic to stable states according to a multi-objective utility signal. The framework introduces a three-phase memory hierarchy (Liquid--Glass--Crystal) governed by an Itô stochastic differential equation (SDE) whose population-level behavior is captured by an explicit Fokker--Planck equation admitting a closed-form Beta stationary distribution. We provide proofs of: (i) well-posedness and global convergence of the crystallization SDE to a unique Beta stationary distribution; (ii) exponential convergence of individual crystallization states to their fixed points, with explicit rates and variance bounds; and (iii) end-to-end Q-learning error bounds and matching memory-capacity lower bounds that link SDE parameters directly to agent performance. Empirical evaluation on Meta-World MT50, Atari 20-game sequential learning, and MuJoCo continual locomotion consistently shows improvements in forward transfer (+34--43\% over the strongest baseline), reductions in catastrophic forgetting (67--80\%), and a 62\% decrease in memory footprint.
- Abstract(参考訳): 動的環境で動作する自律型AIエージェントは永続的な課題に直面している。
本稿では,連続的強化学習における漸進的経験統合のためのメモリアーキテクチャである適応記憶結晶化(AMC)を提案する。
AMCは、シナプス的タグ付けとキャプチャ(STC)理論の質的な構造、すなわち記憶は離散的な安定相を通じて遷移するという考えから着想を得ているが、基礎となる分子やシナプスのメカニズムをモデル化する主張はしていない。
AMCはメモリを連続結晶化プロセスとしてモデル化し、経験は多目的ユーティリティ信号に従ってプラスチックから安定状態へ移行する。
このフレームワークは、アイトー確率微分方程式(SDE)によって支配される3相記憶階層(Liquid--Glass--Crystal)を導入し、その集団レベルの振る舞いは閉形式のベータ定常分布を許容する明示的なフォッカー-プランク方程式によって捉えられる。
証明は以下の通りである。
一 結晶化SDEの一意ベータ定常分布に対する正当性と大域収束性
(ii) 明度と分散境界を有する個々の結晶状態の定点への指数収束
3) エンドツーエンドのQ-ラーニングエラー境界と,SDEパラメータをエージェントのパフォーマンスに直接リンクするメモリ容量の低いバウンダリとのマッチング。
Meta-World MT50, Atari 20ゲームシーケンシャルラーニング, MuJoCo連続ロコモーションの実証評価では, 前方移動(+34-43\%)の改善, 破滅的忘れ込み(67-80\%)の減少, 記憶フットプリントの62-%の低下が一貫して示されている。
関連論文リスト
- Memory-Conditioned Flow-Matching for Stable Autoregressive PDE Rollouts [0.0]
自己回帰生成型PDEソルバは1歩前進し、長いロールアウトでドリフトする。
未解決変数の除去はマルコフ項で完全に解決された進化をもたらすことを示す。
次に、条件生成誤差からメモリ近似を分離する離散的なGrnwallロールアウト境界を導出する。
論文 参考訳(メタデータ) (2026-02-06T13:21:52Z) - Representation-Aware Unlearning via Activation Signatures: From Suppression to Knowledge-Signature Erasure [2.0017902634527194]
本稿では,真の消去と難読化を区別する表現対応アーキテクチャであるKnowledge Immunization Framework(KIF)を紹介する。
提案手法は,主観的表現の動的抑制とパラメータ効率の適応を組み合わせ,完全モデル再学習を伴わない耐久性のある未学習を実現する。
論文 参考訳(メタデータ) (2026-01-15T16:28:14Z) - MambaX: Image Super-Resolution with State Predictive Control [48.76194230142064]
Mambaは、再構築プロセス全体を複数のノードによる状態シーケンスとして表現し、中間的介入を可能にする、有望なアプローチとして登場した。
我々は、連続するスペクトル帯域を潜在状態空間にマッピングする非線形状態予測制御モデル textbfMambaX を作成し、制御方程式の非線形状態パラメータを動的に学習することでSRタスクを一般化した。
本評価では, 単一像SRと多モード融合型SRの両タスクにおいて, 動的スペクトル状態表現モデルの優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-22T11:44:09Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Transition Models: Rethinking the Generative Learning Objective [68.16330673177207]
有限時間間隔で状態遷移を解析的に定義する連続時間力学方程式を導入する。
これは、任意のステップ遷移に適応する新しい生成パラダイムである遷移モデル(TiM)をもたらす。
TiMは最先端のパフォーマンスを達成し、SD3.5 (8Bパラメータ)やFLUX.1 (12Bパラメータ)といった主要なモデルを超える。
論文 参考訳(メタデータ) (2025-09-04T17:05:59Z) - Implicit Neural Differential Model for Spatiotemporal Dynamics [5.1854032131971195]
In-PiNDiffは、安定時間力学のための新しい暗黙の物理積分型ニューラル微分可能解法である。
深い平衡モデルにインスパイアされたIm-PiNDiffは、暗黙の固定点層を用いて状態を前進させ、堅牢な長期シミュレーションを可能にする。
Im-PiNDiffは優れた予測性能、数値安定性の向上、メモリとコストの大幅な削減を実現している。
論文 参考訳(メタデータ) (2025-04-03T04:07:18Z) - State Stream Transformer (SST) : Emergent Metacognitive Behaviours Through Latent State Persistence [0.0]
State Stream Transformer (SST) は、事前訓練された重みで遅延した突発的な推論動作を示す新しいLCMアーキテクチャである。
SSTは、自己回帰世代を通して永続的な潜伏過程を維持し、進化させる重み付き崩壊を伴うスライディングウィンドウ潜伏状態(FFN)キャッシュを導入している。
SSTは、GSM-8K(0ショット)で89.01%、ARC Challenge(0ショットCoT)で91.04%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-30T14:03:36Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。