論文の概要: Feedback-Normalized Developer Memory for Reinforcement-Learning Coding Agents: A Safety-Gated MCP Architecture
- arxiv url: http://arxiv.org/abs/2605.01567v1
- Date: Sat, 02 May 2026 18:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.833692
- Title: Feedback-Normalized Developer Memory for Reinforcement-Learning Coding Agents: A Safety-Gated MCP Architecture
- Title(参考訳): 強化学習型符号化エージェントのためのフィードバックNormalized Developer Memory:安全ゲート型MPPアーキテクチャ
- Authors: Mehmet Iscan,
- Abstract要約: 本稿では、RLコーディングエージェントのためのローカルファーストのモデルコンテキストプロトコル(MCP)ネイティブな開発者メモリアーキテクチャであるRL Developer Memoryについて述べる。
メモリ選択をログ化されたコンテキスト決定プロセスとして扱う。
システムは、RLアルゴリズムのバグ、ハードネガ、レビューゲートされたRL/コントロールケース、低リスク障害を含む決定論的200ケースのベンチマークで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) coding agents increasingly operate over repositories, terminals, tests, and execution traces across long software-engineering episodes. Persistent memory is useful, but static vector stores or generic retrieval-augmented generation (RAG) are insufficient for reinforcement-learning (RL) code development, where small details can alter Bellman targets, terminal masks, gradient flow, or validation claims. This paper presents RL Developer Memory, a local-first, Model Context Protocol (MCP)-native developer-memory architecture for RL coding agents. It treats memory selection as a logged contextual decision process: issue_match ranks candidates and records telemetry, issue_feedback maps raw labels to bounded rewards, and issue_record_resolution links verified resolutions to earlier retrieval events. A deterministic ranker remains deployed, while a contextual-bandit residual policy runs in shadow mode and can affect canary behavior only through conservative off-policy-evaluation (OPE) gates. RL/control memories require theory-to-code metadata and review-gated governance. The system is evaluated on a deterministic 200-case benchmark with RL algorithm bugs, hard negatives, review-gated RL/control cases, and low-risk failures. In the same-commit comparison, deterministic control and full shadow/OPE both achieve 80.0% expected-decision accuracy and 100.0% hard-negative suppression; the full configuration adds learning telemetry rather than accuracy gain. Static validation passed 11/11 checks; dynamic integration passed 10/10 cases. The evidence reports limits: active learned-policy deployment and official-client MCP interoperability are unsupported, live full-configuration latency regresses, and 40 residual non-RL failures remain. The contribution is an auditable memory-control architecture with explicit claim boundaries, not a universal coding-agent improvement claim.
- Abstract(参考訳): 大規模言語モデル(LLM)コーディングエージェントは、長いソフトウェアエンジニアリングのエピソードをまたいだリポジトリ、端末、テスト、実行トレースを介してますます運用されるようになっている。
永続メモリは有用であるが、静的ベクトルストアや汎用検索拡張生成(RAG)は強化学習(RL)コード開発には不十分である。
本稿では、RLコーディングエージェントのためのローカルファーストのモデルコンテキストプロトコル(MCP)ネイティブな開発者メモリアーキテクチャであるRL Developer Memoryについて述べる。
issue_matchは、候補をランク付けしてテレメトリを記録し、 issue_feedback は、生のラベルを有界報酬にマッピングし、 issue_record_ resolution は、以前の検索イベントと検証済みの解像度をリンクする。
決定論的なランク付けは依然として展開されているが、文脈的帯域残留ポリシーはシャドーモードで動作し、保守的なオフ・ポリティ・評価(OPE)ゲートを通してのみカナリア行動に影響を与える可能性がある。
RL/コントロールメモリは、理論からコードへのメタデータとレビュー・ゲートによるガバナンスを必要とする。
このシステムは、RLアルゴリズムのバグ、ハードネガ、レビューゲートされたRL/制御ケース、低リスク障害を含む決定論的200ケースのベンチマークで評価される。
同じコミット比較では、決定論的制御とフルシャドウ/OPEは、それぞれ80.0%の予測精度と100.0%のハードネガティブ抑制を達成する。
静的検証は11/11チェックをパスし、動的統合は10/10ケースをパスした。
アクティブな学習型ポリシデプロイメントと公式なクライアント型MPP相互運用性はサポートされず、ライブのフル設定遅延レグレッション、40の非RL障害が残っている。
このコントリビューションは、明示的なクレーム境界を持つ監査可能なメモリ制御アーキテクチャであり、普遍的なコーディングエージェント改善クレームではない。
関連論文リスト
- Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agents [0.0]
コーディングエージェントは、以前の経験、トレースの修復、リポジトリローカルな運用知識を再利用するために、ますます外部メモリに依存している。
本稿では、純トップk検索問題ではなく、選択的かつリスクに敏感な制御問題として、イシューメモリの使用を再検討する。
リスクに敏感なコンテキスト帯域メモリコントローラであるRSCB-MCを導入し,メモリ使用の有無を判断し,トップレゾリューションを注入し,複数の候補を要約し,高精度または高速リコール検索,停止,あるいはフィードバックを求める。
論文 参考訳(メタデータ) (2026-04-30T00:32:53Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - Adaptive Memory Admission Control for LLM Agents [9.04001220868675]
本稿では,メモリ入力を構造化決定問題として扱うフレームワークであるAdaptive Memory Admission Control (A-MAC)を提案する。
A-MACはメモリ値を5つの補完的・解釈可能な因子に分解する。
A-MACは精度のよいリコールトレードオフを実現し、F1を0.583に改善し、最先端のLLMネイティブメモリシステムに比べてレイテンシを31%削減した。
論文 参考訳(メタデータ) (2026-03-04T19:32:02Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [54.34189781923818]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。