論文の概要: PYTHALAB-MERA: Validation-Grounded Memory, Retrieval, and Acceptance Control for Frozen-LLM Coding Agents
- arxiv url: http://arxiv.org/abs/2605.08468v1
- Date: Fri, 08 May 2026 20:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.670837
- Title: PYTHALAB-MERA: Validation-Grounded Memory, Retrieval, and Acceptance Control for Frozen-LLM Coding Agents
- Title(参考訳): PYTHALAB-MERA:冷凍LLM符号化剤の検証・検索・アクセプタンス制御
- Authors: Mehmet Iscan,
- Abstract要約: 本稿では,ローカル検証条件付きコード生成のための軽量外部コントローラであるPYTHALAB-MERAを紹介する。
厳密な検証ゲートを持つ強化学習コーディングタスクにおけるローカルCLIアーティファクトとしての実装を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Local LLM-based coding agents increasingly work in settings where correctness is earned through execution feedback, persistent state, and bounded repair, not through a single fluent answer. Static retrieval, long-context prompting, self-refinement, execution-feedback repair, and reinforcement learning over model weights each address part of this setting, but they do not jointly provide validation-grounded episodic memory, adaptive retrieval-action selection, delayed credit assignment, and structural skill reuse around a frozen local model. We introduce PYTHALAB-MERA, a lightweight external controller for local validation-conditioned code generation. The frozen language model proposes complete source files; the controller decides which memory records and AST-derived skills should enter the next prompt, validates each candidate through a fail-fast pipeline, converts validation outcomes into bounded shaped rewards, and propagates delayed credit through TD(lambda)-style eligibility traces. We evaluate the implementation as a local CLI artifact on reinforcement-learning coding tasks with strict validation gates. In the measured hard RL setting with three tasks, three repetitions, and a three-attempt budget, PYTHALAB-MERA passed 8/9 strict validations; the self-refinement baseline and the investigated GRACE extension each passed 0/9. These results support a deliberately bounded claim: in this recorded setting, the external memory-and-retrieval controller improved validation success. They do not establish general-purpose code synthesis, state-of-the-art performance, formal program correctness, or formal safety.
- Abstract(参考訳): ローカルなLLMベースのコーディングエージェントは、単一の流動的な回答ではなく、実行フィードバック、永続状態、バウンダリされた修復によって正確性が得られるような環境で、ますます機能します。
静的検索, 長期処理, 自己修復, 実行フィードバック修復, モデルウェイトに対する強化学習は, この設定の各々のアドレス部分に対して行うが, 検証済みのエピソードメモリ, 適応的検索-動作選択, 遅延クレジット割り当て, 凍結したローカルモデルを中心とした構造的スキル再利用など, 共同で行うものではない。
本稿では,ローカル検証条件付きコード生成のための軽量外部コントローラであるPYTHALAB-MERAを紹介する。
フリーズ言語モデルは完全なソースファイルを提案し、コントローラは次のプロンプトにメモリレコードとAST由来のスキルを入力し、フェールファストパイプラインを通じて各候補を検証し、検証結果を有界な形状の報酬に変換し、TD(lambda)スタイルの適性トレースを通じて遅延クレジットを伝搬する。
厳密な検証ゲートを持つ強化学習コーディングタスクにおけるローカルCLIアーティファクトとしての実装を評価する。
PYTHALAB-MERAは, 3つのタスク, 3つの繰り返し, 3つの試行的な予算で, 8/9の厳密な検証をパスした。
これらの結果は意図的に境界づけられたクレームをサポートし、この記録された設定では、外部メモリと検索コントローラがバリデーションの成功を改善した。
彼らは汎用コード合成、最先端のパフォーマンス、正式なプログラムの正しさ、正式な安全性を確立していない。
関連論文リスト
- Feedback-Normalized Developer Memory for Reinforcement-Learning Coding Agents: A Safety-Gated MCP Architecture [0.0]
本稿では、RLコーディングエージェントのためのローカルファーストのモデルコンテキストプロトコル(MCP)ネイティブな開発者メモリアーキテクチャであるRL Developer Memoryについて述べる。
メモリ選択をログ化されたコンテキスト決定プロセスとして扱う。
システムは、RLアルゴリズムのバグ、ハードネガ、レビューゲートされたRL/コントロールケース、低リスク障害を含む決定論的200ケースのベンチマークで評価される。
論文 参考訳(メタデータ) (2026-05-02T18:37:36Z) - Calibrated Speculative Decoding: Frequency-Guided Candidate Selection for Efficient Inference [27.59556627479635]
Calibrated Speculative Decodingは、標準検証によって破棄された有効なトークンを復元する。
Online Correction Memory は歴史的拒絶を集約し、繰り返し発散パターンを救助候補者として提案する。
Semantic Consistency Gatingは、正確なトークンマッチングの代わりに確率比を用いて候補許容性を検証する。
論文 参考訳(メタデータ) (2026-04-15T09:01:54Z) - Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning [79.88942231770629]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を向上させるための訓練後の中心的なツールとなっている。
統一表記によるロールアウトパイプラインの形式化とGenerate-Filter-Control-Replay(GFCR)の導入
検証可能な報酬、プロセスの監督、判断に基づくゲーティング、ガイドとツリー/セグメントのロールアウト、アダプティブな計算割り当て、早期終了と部分的なロールアウト、スループット最適化、自己改善のための再生/再配置でRLにまたがる手法を合成する。
論文 参考訳(メタデータ) (2026-04-08T00:53:29Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - SEVerA: Verified Synthesis of Self-Evolving Agents [12.9624447364193]
自己進化型エージェントフレームワークは、安全性や正確性の正式な保証を提供しない。
エージェントコード生成を制約付き学習問題として定式化し、ハードな形式仕様とソフトな目的とを組み合わせてタスクユーティリティをキャプチャする。
探索はFGGMコールを含む候補パラメトリックプログラムを合成し、検証は全てのパラメータ値に対する厳しい制約に関して正当性を証明し、制約のない学習に還元する。
論文 参考訳(メタデータ) (2026-03-26T07:32:20Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。
エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:10:23Z) - PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。
本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。
その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-03-03T01:55:20Z) - OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。
ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。
CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文 参考訳(メタデータ) (2024-05-09T07:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。