論文の概要: Memory-Induced Tool-Drift in LLM Agents
- arxiv url: http://arxiv.org/abs/2605.24941v1
- Date: Sun, 24 May 2026 08:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.527887
- Title: Memory-Induced Tool-Drift in LLM Agents
- Title(参考訳): LLM剤の記憶誘起工具ドリフト
- Authors: Mahavir Dabas, Jihyun Jeong, Ming Jin, Ruoxi Jia,
- Abstract要約: メモリに格納されたパーソナリティ駆動バイアスは、適用できないコンテキストにおけるツールコールに静かに影響する。
機械的に、バイアスドメモリは暗黙のステアリングベクトルとして働き、明示的な行動指示と同じ潜在方向に沿ってアクティベーションをプッシュする。
エージェントがユーザの代理として連続的なアクションを取るようになると、メモリ誘発ツールドリフトは体系的な脆弱性を表す。
- 参考スコア(独自算出の注目度): 16.757958713462894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLM agents combine long-term memory for personalization with tool-calling interfaces for taking actions in the world -- a combination underpinning contemporary production systems. We study a previously unexamined failure of this combination: when personality-driven biases stored in memory (cost-consciousness, impatience, risk tolerance, etc.) silently affect tool calls in contexts where they are not applicable. We call this memory-induced tool-drift and operationalize it through MEMDRIFT, a benchmark of 105 scenarios spanning five bias dimensions and seven professional domains, generated through an automated adversarial pipeline. Across seven frontier models -- including those with extended reasoning -- biased memories raise deflection scores (a judge-scored measure of parameter deviation from unbiased baselines) by up to $+3.6$ points on a 1--5 scale. Tool-drift persists when memory management is handled by three production memory architectures. The phenomenon affects real-world tools: scanning 6{,}062 tools across 288 verified MCP servers, we flag 608 with susceptible parameters and confirm tool-drift on a validated subset. Mechanistically, biased memories act as implicit steering vectors, pushing activations along the same latent directions as explicit behavioral instructions. They also redistribute attention from task-relevant context toward memory entries with surface-level keyword overlap to the target parameter. Standard defenses -- prompt-based relevance instructions and memory filters -- reduce drift but do not eliminate it. As agents take increasingly consequential actions on a user's behalf, memory-induced tool-drift represents a systematic vulnerability that current safeguards do not address, motivating dedicated defenses at the intersection of memory management and tool-call generation.
- Abstract(参考訳): 現代のLLMエージェントは、パーソナライズのための長期記憶と、世界のアクションを取るためのツールコールインターフェースを組み合わせる。
メモリに格納されたパーソナリティ駆動バイアス(コスト意識、忍耐力、リスク耐性など)が、適用できない状況において、ツールコールに静かに影響を及ぼす場合。
私たちは、このメモリ駆動ツールドリフトを5つのバイアス次元と7つの専門ドメインにまたがる105シナリオのベンチマークであるMEMDRIFTを通じて運用します。
長期の推論を含む7つのフロンティアモデルにおいて、バイアスドメモリは1~5スケールで最大3.6ドルポイントの偏差スコア(偏差のないベースラインからのパラメータ偏差の判定値)を上昇させる。
ツールドリフトは、メモリ管理が3つのプロダクションメモリアーキテクチャによって処理されるときに持続する。
6{,}062 のツールを 288 の認証済み MCP サーバでスキャンし、608 に許容可能なパラメータをフラグ付け、検証済みのサブセット上でツールドリフトを確認する。
機械的に、バイアスドメモリは暗黙のステアリングベクトルとして働き、明示的な行動指示と同じ潜在方向に沿ってアクティベーションをプッシュする。
また、タスク関連コンテキストからメモリエントリへの注意を、ターゲットパラメータにオーバーラップした表面レベルのキーワードで再分配する。
標準ディフェンス -- プロンプトベースの関連命令とメモリフィルタ -- はドリフトを減らすが、それを排除しない。
エージェントがユーザに代わって連続的なアクションをとるようになると、メモリ駆動ツールドリフトは、現在のセーフガードが対処しない体系的な脆弱性を表し、メモリ管理とツールコール生成の交差点で専用の防御を動機付ける。
関連論文リスト
- MemGym: a Long-Horizon Memory Environment for LLM Agents [69.79226770543049]
本稿では,エージェントメモリのベンチマークであるMemGymを紹介する。
MemGymは、メモリパフォーマンスを推論、検索、ツール使用能力から切り離すメモリアイソレーションスコアを報告している。
MEMGYM-CODEQAとMEMGYM-DRの合成パイプラインは、長さ制御可能であり、各ステージでアブレーションを検証可能であり、下流のシナリオと密に整合している。
論文 参考訳(メタデータ) (2026-05-20T07:25:33Z) - The Trap of Trajectory: Towards Understanding and Mitigating Spurious Correlations in Agentic Memory [7.707732051915869]
エージェントメモリシステムの診断では、メモリはクリーンな入力の推論を改善するが、それらが存在するときのスプリアスパターンへの依存を増幅する。
本稿では,CAMELを提案する。CAMELは,書き込み時間と検索時間の両方で,多様なメモリアーキテクチャ間で動作可能な,プラグアンドプレイキャリブレーション方式である。
全体として、CAMELはより信頼性の高いエージェントメモリデプロイメントに対して、原則的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2026-05-10T05:04:13Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers [0.42061757959666934]
大きな言語モデル(LLM)エージェントは、単一のコンテキストウィンドウが小さすぎて何が起きているのかをキャプチャできないような環境で、ますます運用される。
メモリはステートレステキストジェネレータを真に適応的なエージェントに変える。
この調査は、メモリがどのように設計され、実装され、現代のLCMベースのエージェントで評価されるかという構造化された説明を提供する。
論文 参考訳(メタデータ) (2026-03-08T15:08:01Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - ActMem: Bridging the Gap Between Memory Retrieval and Reasoning in LLM Agents [14.695250837875454]
本稿では,ActMemと呼ばれる新しい動作可能なメモリフレームワークを提案する。
ActMemは非構造化対話履歴を構造化因果グラフと意味グラフに変換する。
エージェントは暗黙の制約を推論し、過去の状態と現在の意図の間の潜在的な衝突を解決することができる。
論文 参考訳(メタデータ) (2026-02-04T00:54:53Z) - Mem2ActBench: A Benchmark for Evaluating Long-Term Memory Utilization in Task-Oriented Autonomous Agents [20.357475946040054]
textscMem2ActBenchは、エージェントがツールベースのアクションを実行するために長期的なメモリを積極的に活用できるかどうかを評価するベンチマークである。
リバースジェネレーション法は400のツール使用タスクを生成し、ヒトの評価は91.3%が強いメモリ依存であることを確認した。
論文 参考訳(メタデータ) (2026-01-13T06:22:32Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - MemGen: Weaving Generative Latent Memory for Self-Evolving Agents [57.1835920227202]
本稿では,エージェントに人間的な認知機能を持たせる動的生成記憶フレームワークであるMemGenを提案する。
MemGenは、エージェントが推論を通して潜在記憶をリコールし、増大させ、記憶と認知の密接なサイクルを生み出すことを可能にする。
論文 参考訳(メタデータ) (2025-09-29T12:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。