論文の概要: What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis
- arxiv url: http://arxiv.org/abs/2605.03354v1
- Date: Tue, 05 May 2026 04:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.764065
- Title: What Happens Inside Agent Memory? Circuit Analysis from Emergence to Diagnosis
- Title(参考訳): エージェントメモリの内部に何が起こるか : 創発から診断までの回路解析
- Authors: Xutao Mao, Jinman Zhao, Gerald Penn, Cong Wang,
- Abstract要約: 我々はQwen-3ファミリー(0.6B--14B)と2つのメモリフレームワーク(mem0とA-MEM)にまたがる内部特徴回路をトレースする。
現実的な意味として、2つの回路群間の特徴空間分離は、監督なしで76.2%の精度で動作障害の局所化を可能にする。
- 参考スコア(独自算出の注目度): 19.29853121538131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent memory failures are silent: an LLM-based agent can produce a fluent response even when it fails to extract, retain, or retrieve the information needed across sessions. The write-manage-read loop describes the external pipeline of these systems but leaves open which internal computations implement each stage. Tracing internal feature circuits across the Qwen-3 family (0.6B--14B) and two memory frameworks (mem0 and A-MEM), we report three findings. First, control is detectable before content: routing circuitry is causally active at 0.6B, while content circuitry produces no detectable signal until 4B under our tracing setup, creating a deployment regime where small models route with apparent competence but silently fail at extraction and grounding. Second, within the content group, Write and Read share a late-layer hub that operates as a context-grounding substrate already present in the base model; only memory framing recruits a functional grounding direction on this substrate, and the hub transfers across both frameworks. Third, emergence does not imply steerability: although the content circuit becomes detectable at 4B, it becomes reliably steerable only at 8B, indicating that detection and intervention have distinct scale thresholds. As a practical implication, the feature-space separation between the two circuit groups enables per-operation failure localization at 76.2% accuracy without supervision, providing a stage-level diagnostic for otherwise silent agent-memory failures.
- Abstract(参考訳): LLMベースのエージェントは、セッション間で必要な情報を抽出、保持、取得できない場合でも、流動的な応答を生成することができる。
write-manage-readループは、これらのシステムの外部パイプラインを記述しているが、内部計算が実装する各ステージを開いている。
Qwen-3ファミリー (0.6B--14B) と2つのメモリフレームワーク (mem0, A-MEM) の内的特徴回路を追跡した結果, 3つの知見が得られた。
ルーティング回路は0.6Bで因果的にアクティブであり、コンテンツ回路は4Bまで検出可能な信号を発生しない。
第2に、コンテンツグループ内でWriteとReadは、すでにベースモデルに存在するコンテキストグラウンドの基質として動作する遅延層ハブを共有している。
第3に、コンテンツ回路は4Bで検出可能になったが、8Bでのみ確実に操縦可能となり、検出と介入が異なるスケール閾値を持つことを示す。
現実的な意味として、2つの回路群間の特徴空間分離は、監督なしで76.2%の精度で動作障害の局所化を可能にし、そうでなければサイレントなエージェントメモリ障害のステージレベル診断を提供する。
関連論文リスト
- Architectural Observability Collapse in Transformers [0.0]
トレーニングは、出力信頼が露呈しない内部的な意思決定品質のシグナルを保持します。
信頼制御は、平均60.3%の生プローブ信号を6つのファミリーの14モデルで吸収する。
Llama 3.1 8Bは、同じ32層、32頭、4096面の形状で崩壊する。
論文 参考訳(メタデータ) (2026-04-27T02:39:02Z) - Route-Induced Density and Stability (RIDE): Controlled Intervention and Mechanism Analysis of Routing-Style Meta Prompts on LLM Internal States [10.639846833695806]
我々は,アクティベーション空間,(C2)ドメインキーワードの注意,(C3)予測エントロピーと意味的変動による出力安定性を定量化する。
ルーティング設計の校正と不確実性推定のための診断プローブとしてRIDEを提案する。
論文 参考訳(メタデータ) (2026-03-31T03:19:36Z) - SE-Bench: Benchmarking Self-Evolution with Knowledge Internalization [52.635237306338574]
我々は,NumPyライブラリとそのAPIドキュメントをランダムな識別子を持つ擬似ノーベルパッケージに難読化する診断環境であるSE-Benchを紹介する。
エージェントはこのパッケージを内部化するように訓練され、ドキュメントにアクセスせずに単純なコーディングタスクで評価される。
本研究は,(1)参考資料を用いた学習が保持を阻害するオープンブックパラドックス,(2)知識圧縮を重みに強制する「クローズドブックトレーニング」,(2)標準RLがPPOクリッピングと負の勾配によって新たな知識を完全に内部化するのに失敗するRLギャップ,(3)内部化,証明モデルのためのセルフプレイの実現可能性,の3つの知見を明らかにする。
論文 参考訳(メタデータ) (2026-02-04T17:58:32Z) - TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention [44.64827167753535]
有害なセマンティクスは分散層間回路として機能し、局所的な介入が不安定で実用性に有害である。
我々は,不特定意味論の因果伝播回路をトレースし,切断するパスレベルフレームワークである textbfTrace を提案する。
トレースは最先端のベースラインを著しく上回り、敵の堅牢性と汎用性とのトレードオフが優れている。
論文 参考訳(メタデータ) (2026-01-29T15:58:12Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation [0.0]
モデルは依然として記憶されたトレーニングデータに依存し、得られた証拠をバイパスし、汚染された出力を生成する。
RePCS(Retrieval-Path Contamination Scoring)は,モデルアクセスや再トレーニングを必要とせずに,そのような動作を検出する診断手法である。
論文 参考訳(メタデータ) (2025-06-18T14:48:19Z) - Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。
可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。
提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文 参考訳(メタデータ) (2025-02-07T00:18:20Z) - Binary DAD-Net: Binarized Driveable Area Detection Network for
Autonomous Driving [94.40107679615618]
本稿では,二項化駆動型領域検出ネットワーク(バイナリDAD-Net)を提案する。
エンコーダ、ボトルネック、デコーダ部分の2重みとアクティベーションのみを使用する。
パブリックデータセット上で、最先端のセマンティックセグメンテーションネットワークより優れています。
論文 参考訳(メタデータ) (2020-06-15T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。