論文の概要: What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis
- arxiv url: http://arxiv.org/abs/2605.03354v2
- Date: Thu, 07 May 2026 05:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:06.063312
- Title: What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis
- Title(参考訳): エージェントメモリの内部に何が起こるか : 創発から診断までの回路解析
- Authors: Xutao Mao, Jinman Zhao, Gerald Penn, Cong Wang,
- Abstract要約: 我々はQwen-3ファミリー(0.6B-14B)と2つのメモリフレームワーク(mem0とA-MEM)の回路をトレースする。
我々は無監督段階診断を開発し,76.2%の精度でサイレント障害を責任ある手術に局在させる。
- 参考スコア(独自算出の注目度): 19.29853121538131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent memory failures are silent: an LLM-based agent can produce a fluent response even when it fails to extract, retain, or retrieve the information needed across sessions. The write-manage-read loop describes the external pipeline of these systems but leaves open which internal computations implement each stage. Tracing feature circuits across the Qwen-3 family (0.6B--14B) and two memory frameworks (mem0 and A-MEM), we report two mechanistic findings and one deliverable. First, control is detectable before content: routing circuitry is causally active at 0.6B, while content circuitry produces no detectable signal until 4B, exposing a deployment regime where small models route memory decisions before they can reliably extract or ground the underlying facts. Second, the shared hub is recruited, not created: Write and Read converge on a late-layer hub that already exists in the base model as a context-grounding substrate, and memory framing recruits a memory-specific functional direction on this substrate rather than building one of its own. Both findings transfer across mem0 and A-MEM, indicating that the underlying computations are properties of the base model rather than of any particular interface. Building on this circuit structure, we develop an unsupervised stage-level diagnostic that localizes silent failures to the responsible operation up to 76.2% accuracy, outperforming the strongest supervised baseline by 13 points. Together, these results point to circuit-level signatures as a practical handle for monitoring and structurally-guided design of agent memory.
- Abstract(参考訳): LLMベースのエージェントは、セッション間で必要な情報を抽出、保持、取得できない場合でも、流動的な応答を生成することができる。
write-manage-readループは、これらのシステムの外部パイプラインを記述しているが、内部計算が実装する各ステージを開いている。
Qwen-3ファミリー(0.6B-14B)と2つのメモリフレームワーク(mem0とA-MEM)にまたがる特徴回路の追跡を行った。
ルーティング回路は0.6Bで因果的にアクティブであり、コンテンツ回路は4Bまで検出可能な信号を発生しない。
第2に、共有ハブはリクルートされ、作成されていない: Write and Readは、コンテキストグラウンド基板としてベースモデルにすでに存在する遅延層ハブに収束し、メモリフレーミングは、独自のものを構築するのではなく、この基板上でメモリ固有の機能方向をリクルートする。
どちらの結果もmem0とA-MEMをまたいで移動し、基礎となる計算が特定のインターフェースではなくベースモデルの特性であることを示唆している。
この回路構造に基づいて,無監督のステージレベル診断を開発し,最大76.2%の精度でサイレント障害を局所化し,最強の教師ベースラインを13ポイント上回った。
これらの結果は、エージェントメモリの監視と構造誘導設計のための実用的なハンドラとして、回路レベルのシグネチャを指している。
関連論文リスト
- Architectural Observability Collapse in Transformers [0.0]
トレーニングは、出力信頼が露呈しない内部的な意思決定品質のシグナルを保持します。
信頼制御は、平均60.3%の生プローブ信号を6つのファミリーの14モデルで吸収する。
Llama 3.1 8Bは、同じ32層、32頭、4096面の形状で崩壊する。
論文 参考訳(メタデータ) (2026-04-27T02:39:02Z) - Route-Induced Density and Stability (RIDE): Controlled Intervention and Mechanism Analysis of Routing-Style Meta Prompts on LLM Internal States [10.639846833695806]
我々は,アクティベーション空間,(C2)ドメインキーワードの注意,(C3)予測エントロピーと意味的変動による出力安定性を定量化する。
ルーティング設計の校正と不確実性推定のための診断プローブとしてRIDEを提案する。
論文 参考訳(メタデータ) (2026-03-31T03:19:36Z) - SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization [52.635237306338574]
我々は,NumPyライブラリとそのAPIドキュメントをランダムな識別子を持つ擬似ノーベルパッケージに難読化する診断環境であるSE-Benchを紹介する。
エージェントはこのパッケージを内部化するように訓練され、ドキュメントにアクセスせずに単純なコーディングタスクで評価される。
本研究は,(1)参考資料を用いた学習が保持を阻害するオープンブックパラドックス,(2)知識圧縮を重みに強制する「クローズドブックトレーニング」,(2)標準RLがPPOクリッピングと負の勾配によって新たな知識を完全に内部化するのに失敗するRLギャップ,(3)内部化,証明モデルのためのセルフプレイの実現可能性,の3つの知見を明らかにする。
論文 参考訳(メタデータ) (2026-02-04T17:58:32Z) - TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention [44.64827167753535]
有害なセマンティクスは分散層間回路として機能し、局所的な介入が不安定で実用性に有害である。
我々は,不特定意味論の因果伝播回路をトレースし,切断するパスレベルフレームワークである textbfTrace を提案する。
トレースは最先端のベースラインを著しく上回り、敵の堅牢性と汎用性とのトレードオフが優れている。
論文 参考訳(メタデータ) (2026-01-29T15:58:12Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation [0.0]
モデルは依然として記憶されたトレーニングデータに依存し、得られた証拠をバイパスし、汚染された出力を生成する。
RePCS(Retrieval-Path Contamination Scoring)は,モデルアクセスや再トレーニングを必要とせずに,そのような動作を検出する診断手法である。
論文 参考訳(メタデータ) (2025-06-18T14:48:19Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Binary DAD-Net: Binarized Driveable Area Detection Network for
Autonomous Driving [94.40107679615618]
本稿では,二項化駆動型領域検出ネットワーク(バイナリDAD-Net)を提案する。
エンコーダ、ボトルネック、デコーダ部分の2重みとアクティベーションのみを使用する。
パブリックデータセット上で、最先端のセマンティックセグメンテーションネットワークより優れています。
論文 参考訳(メタデータ) (2020-06-15T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。