論文の概要: Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents
- arxiv url: http://arxiv.org/abs/2604.27283v1
- Date: Thu, 30 Apr 2026 00:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.852603
- Title: Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents
- Title(参考訳): 記憶すべき時間:LLMに基づく符号化エージェントにおける注意深い記憶検索のためのリスク感性コンテキスト帯域
- Authors: Mehmet Iscan,
- Abstract要約: コーディングエージェントは、以前の経験、トレースの修復、リポジトリローカルな運用知識を再利用するために、ますます外部メモリに依存している。
本稿では、純トップk検索問題ではなく、選択的かつリスクに敏感な制御問題として、イシューメモリの使用を再検討する。
リスクに敏感なコンテキスト帯域メモリコントローラであるRSCB-MCを導入し,メモリ使用の有無を判断し,トップレゾリューションを注入し,複数の候補を要約し,高精度または高速リコール検索,停止,あるいはフィードバックを求める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-based coding agents increasingly rely on external memory to reuse prior debugging experience, repair traces, and repository-local operational knowledge. However, retrieved memory is useful only when the current failure is genuinely compatible with a previous one; superficial similarity in stack traces, terminal errors, paths, or configuration symptoms can lead to unsafe memory injection. This paper reframes issue-memory use as a selective, risk-sensitive control problem rather than a pure top-k retrieval problem. We introduce RSCB-MC, a risk-sensitive contextual bandit memory controller that decides whether an agent should use no memory, inject the top resolution, summarize multiple candidates, perform high-precision or high-recall retrieval, abstain, or ask for feedback. The system stores reusable issue knowledge through a pattern-variant-episode schema and converts retrieval evidence into a fixed 16-feature contextual state capturing relevance, uncertainty, structural compatibility, feedback history, false-positive risk, latency, and token cost. Its reward design penalizes false-positive memory injection more strongly than missed reuse, making non-injection and abstention first-class safety actions. In deterministic smoke-scale artifacts, RSCB-MC obtains the strongest non-oracle offline replay success rate, 62.5%, while maintaining a 0.0% false-positive rate. In a bounded 200-case hot-path validation, it reaches 60.5% proxy success with 0.0% false positives and a 331.466 microseconds p95 decision latency. The results show that, for coding-agent memory, the key question is not only which memory is most similar, but whether any retrieved memory is safe enough to influence the debugging trajectory.
- Abstract(参考訳): 大規模な言語モデル(LLM)ベースのコーディングエージェントは、デバッグ前のエクスペリエンス、リカバリトレース、リポジトリローカルな運用知識を再利用するために、外部メモリに依存している。
しかし、検索されたメモリは、現在の障害が実際に以前の障害と互換性がある場合にのみ有用である。スタックトレース、端末エラー、パス、設定の症状といった表面的類似性は、安全でないメモリインジェクションにつながる可能性がある。
本稿では、純トップk検索問題ではなく、選択的かつリスクに敏感な制御問題として、イシューメモリの使用を再検討する。
リスクに敏感なコンテキスト帯域メモリコントローラであるRSCB-MCを導入し,メモリ使用の有無を判断し,トップレゾリューションを注入し,複数の候補を要約し,高精度または高速リコール検索,停止,あるいはフィードバックを求める。
このシステムは、パターン変動エピソードスキーマを通じて再利用可能な発行知識を格納し、検索証拠を、関連性、不確実性、構造的整合性、フィードバック履歴、偽陽性リスク、レイテンシ、トークンコストをキャプチャする固定された16種類のコンテキスト状態に変換する。
その報酬設計は、誤陽性のメモリインジェクションを、再利用の欠如よりも強く罰し、非注入と第一級安全アクションを棄却する。
決定論的スモークスケールのアーティファクトでは、RSCB-MCは最強のオフライン再生成功率62.5%を獲得し、偽陽性率0.0%を維持している。
200ケースのホットパス検証では60.5%のプロキシ成功、0.0%の偽陽性、331.466マイクロ秒のp95決定遅延がある。
その結果、コーディングエージェントメモリでは、どのメモリが最もよく似ているかだけでなく、検索したメモリがデバッグ路に影響を与えるのに十分な安全かどうかが重要な問題であることがわかった。
関連論文リスト
- From Unstructured Recall to Schema-Grounded Memory: Reliable AI Memory via Iterative, Schema-Aware Extraction [39.146761527401424]
永続的なAIメモリは、しばしば検索問題に還元される。
本稿では、信頼性の高い外部AIメモリはスキーマ基底のハーネスでなければならないと論じる。
本稿では、メモリの取り込みをオブジェクト検出、フィールド検出、フィールド値抽出に分解する反復型スキーマ対応書き込みパスを提案する。
論文 参考訳(メタデータ) (2026-04-30T14:14:02Z) - MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval [59.295767860331004]
RF-Memは、親しみやすい不確実性誘導デュアルパスメモリレトリバーである。
それは、人間のようなデュアルプロセス認識をレトリバーに埋め込む。
一定の予算とレイテンシの制約の下で、ワンショット検索とフルコンテキスト推論を一貫して上回る。
論文 参考訳(メタデータ) (2026-03-10T06:31:44Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。
マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。
MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文 参考訳(メタデータ) (2026-02-18T09:49:14Z) - A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory [31.673865459672285]
大規模言語モデル(LLM)エージェントは、過去のインタラクションから学習するためにメモリを使用する。
敵は、エージェントのメモリに一見無害なレコードを注入して、その将来の振る舞いを操作できる。
A-MemGuard は LLM エージェントメモリのための最初のプロアクティブな防御フレームワークである。
論文 参考訳(メタデータ) (2025-09-29T16:04:15Z) - Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents [33.617262543252494]
本稿では、メモリ履歴全体からの選択的検索を可能にするコールバック強化メモリを備えたメモリ拡張エージェントReMemR1を提案する。
また,RLMLR(Reinforcement Learning with Multi-Level Rewards)を提案する。
論文 参考訳(メタデータ) (2025-09-27T01:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。