論文の概要: D-MEM: Dopamine-Gated Agentic Memory via Reward Prediction Error Routing
- arxiv url: http://arxiv.org/abs/2603.14597v1
- Date: Sun, 15 Mar 2026 20:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.909772
- Title: D-MEM: Dopamine-Gated Agentic Memory via Reward Prediction Error Routing
- Title(参考訳): D-MEM: 逆予測誤差ルーティングによるドーパミン修飾エージェントメモリ
- Authors: Yuru Song, Qi Xin,
- Abstract要約: D-MEM(Dopamine-Gated Agentic Memory)は,認知的再構成から短期的相互作用を分離する生物学的にインスパイアされたアーキテクチャである。
D-MEMはトークン消費を80%以上削減し、O(N2)ボトルネックを排除し、マルチホップ推論や対向レジリエンスにおいてベースラインを上回っている。
- 参考スコア(独自算出の注目度): 2.4649494563944194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous LLM agents require structured long-term memory, yet current "append-and-evolve" systems like A-MEM face O(N^2) write-latency and excessive token costs. We introduce D-MEM (Dopamine-Gated Agentic Memory), a biologically inspired architecture that decouples short-term interaction from cognitive restructuring via a Fast/Slow routing system based on Reward Prediction Error (RPE). A lightweight Critic Router evaluates stimuli for Surprise and Utility. Routine, low-RPE inputs are bypassed or cached in an O(1) fast-access buffer. Conversely, high-RPE inputs, such as factual contradictions or preference shifts, trigger a "dopamine" signal, activating the O(N) memory evolution pipeline to reshape the agent's knowledge graph. To evaluate performance under realistic conditions, we introduce the LoCoMo-Noise benchmark, which injects controlled conversational noise into long-term sessions. Evaluations demonstrate that D-MEM reduces token consumption by over 80%, eliminates O(N^2) bottlenecks, and outperforms baselines in multi-hop reasoning and adversarial resilience. By selectively gating cognitive restructuring, D-MEM provides a scalable, cost-efficient foundation for lifelong agentic memory.
- Abstract(参考訳): 自律型LLMエージェントは、構造化された長期記憶を必要とするが、A-MEMのような現在の「アペンド・アンド・エボレーブ」システムは、O(N^2)書き込み遅延と過剰トークンコストを必要とする。
D-MEM (Dopamine-Gated Agentic Memory) は生物学的にインスパイアされたアーキテクチャであり、Reward Prediction Error (RPE) に基づくFast/Slowルーティングシステムを介して認知再構成から短期的相互作用を分離する。
軽量な批判ルータは、サプライズとユーティリティの刺激を評価する。
ルーチンで低RPE入力は、O(1)高速アクセスバッファにバイパスまたはキャッシュされる。
逆に、事実矛盾や嗜好シフトなどの高RPE入力は「ドーパミン」シグナルをトリガーし、O(N)メモリ進化パイプラインを活性化してエージェントの知識グラフを再生成する。
現実的な条件下での性能を評価するために,長期セッションに制御された会話ノイズを注入するLoCoMo-Noiseベンチマークを導入する。
D-MEMはトークン消費を80%以上削減し、O(N^2)ボトルネックを排除し、マルチホップ推論や対向レジリエンスにおいてベースラインを上回っている。
認知的再構成を選択的にゲーティングすることにより、D-MEMは生涯にわたるエージェントメモリのためのスケーラブルでコスト効率の良い基盤を提供する。
関連論文リスト
- Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - StepScorer: Accelerating Reinforcement Learning with Step-wise Scoring and Psychological Regret Modeling [4.454674305657783]
本稿では, 心理的回帰モデル(PRM)を導入し, 各意思決定ステップの後に, 後悔に基づくフィードバック信号を取り入れることで学習を加速する手法を提案する。
我々はPRMがLunar Landerのようなベンチマーク環境で従来のPPOよりも約36%高速に安定した性能を実現することを示した。
以上の結果から, PRMは, ロボット工学, 金融学, 適応教育などの現実的な応用に適合し, フィードバックが遅れた連続制御タスクや環境に特に有効であることが示された。
論文 参考訳(メタデータ) (2026-02-03T06:39:20Z) - Parallel Delayed Memory Units for Enhanced Temporal Modeling in Biomedical and Bioacoustic Signal Analysis [17.73662095849247]
Parallel Delayed Memory Unit (PDMU) は、短期的クレジット割り当てのための遅延ゲート状態空間モジュールである。
PDMUは、ゲート遅延ライン機構を介して、短期的な時間的状態相互作用とメモリ効率を高める。
PDMUは並列トレーニングとシーケンシャル推論をサポートしており、既存の線形RNNフレームワークに簡単に統合できる。
論文 参考訳(メタデータ) (2025-12-01T12:46:56Z) - Distributed Dynamic Associative Memory via Online Convex Optimization [42.94410959330529]
連想メモリ(AM)はキュー応答リコールを可能にしており、最近、トランスフォーマーのようなモダンなニューラルアーキテクチャの基礎となる重要なメカニズムとして認識されている。
本研究では、分散動的連想メモリ(DDAM)の概念を導入し、従来のAMを複数のエージェントと時間変化データストリームによる設定に拡張する。
DDAMでは、各エージェントは独自のアソシエーションを格納するだけでなく、特定の関心行列に基づいて他のエージェントからの情報を選択的に記憶するローカルAMを維持している。
DDAM-TOGDと呼ばれる木に基づく分散勾配オンライン降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-28T16:56:18Z) - Mnemosyne: An Unsupervised, Human-Inspired Long-Term Memory Architecture for Edge-Based LLMs [1.2582867366903179]
我々は、エッジベース大規模言語モデル(LLM)のための、教師なし、人間にインスパイアされた長期記憶アーキテクチャであるMnemosyneを紹介する。
提案手法では, グラフ構造記憶, モジュール状物質および冗長性フィルタ, メモリコミットとプルーニング機構, 時間減衰とリフレッシュ処理による確率的リコールを用いた。
Mnemosyneは、反復的で意味的に類似しているが、時間的に異なる会話は、ナイーブ検索によって制限される縦型医療アシスタントでの使用を目的として設計されている。
論文 参考訳(メタデータ) (2025-10-07T03:32:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Perception-Prediction-Reaction Agents for Deep Reinforcement Learning [12.566380944901816]
本稿では,長期記憶を必要とするタスクにおける強化学習を改善するために,新しいリカレントエージェントアーキテクチャを提案する。
新しい補助的損失は、3つのコアすべてから引き出されたポリシーを互いに規則化し、ポリシーが最近の記憶と長期記憶の両方から表現できることを前倒しする。
論文 参考訳(メタデータ) (2020-06-26T21:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。