論文の概要: Coding Agents with Environment Interaction: A Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2602.06098v1
- Date: Thu, 05 Feb 2026 13:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.046416
- Title: Coding Agents with Environment Interaction: A Theoretical Perspective
- Title(参考訳): 環境相互作用を考慮した符号化エージェントの理論的展望
- Authors: Nicolas Menet, Michael Hersche, Andreas Krause, Abbas Rahimi,
- Abstract要約: 本研究では,実行環境を用いた生成後のコード選択と,環境フィードバックに基づくコード生成という,2つの支配的なパラダイムのためのフレームワークを提供する。
我々は、環境に配慮したコード正当性推定器として、確立されたいくつかの選択を定式化する。
本稿では,非可観測成分による報酬関数に対する新たな後悔を導き,非公式なタスク記述のあいまいさによってバックプロンプトの有効性が制限される理由を理論的に説明する。
- 参考スコア(独自算出の注目度): 35.500070288560984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coding agents are increasingly utilized in test-driven software development, yet the theoretical mechanisms behind their environment-interaction strategies remain underexplored. We provide a probabilistic framework for two dominant paradigms: code selection after generation using the execution environment, and code generation conditioned on environment feedback. First, we formalize several well-established selection heuristics as environment-aware estimators of code correctness. We theoretically prove that estimators based on fuzzy functional similarity add an inductive bias and strictly dominate estimators based on functional equivalence in terms of signal-to-noise ratio. Second, we frame backprompting as an in-context approximation of Thompson sampling. We derive a novel regret bound for reward functions with unobservable components, theoretically explaining why the effectiveness of backprompting is limited by the ambiguity of the informal task description (an irreducible regret). Using three state-of-the-art open weight models, we corroborate these findings across BigCodeBenchHard, LeetCodeDataset, and QiskitHumanEvalSim. Our formalization also suggests how to improve task descriptions effectively, leading to a new benchmark, QiskitHumanEvalSimX.
- Abstract(参考訳): コーディングエージェントは、テスト駆動ソフトウェア開発でますます利用されていますが、環境-インタラクション戦略の背後にある理論的メカニズムは、まだ解明されていないままです。
我々は,実行環境を用いた生成後のコード選択と,環境フィードバックに基づくコード生成という,2つの支配的なパラダイムに対する確率的フレームワークを提供する。
まず、環境に配慮したコード正当性推定器として、確立されたいくつかの選択ヒューリスティックを定式化する。
我々は,ファジィ関数類似度に基づく推定器が帰納バイアスを与え,信号-雑音比の関数同値に基づく推定器を厳密に支配することを理論的に証明する。
第二に、トンプソンサンプリングの文脈内近似としてバックプロンプティングを行う。
本稿では,非可観測成分による報酬関数に対する新たな後悔を導き,非公式なタスク記述(既約後悔)の曖昧さによってバックプロンプトの有効性が制限される理由を理論的に説明する。
3つの最先端のオープンウェイトモデルを用いて、これらの発見をBigCodeBenchHard、LeetCodeDataset、QiskitHumanEvalSimで裏付ける。
我々の形式化はまた、タスク記述を効果的に改善する方法も提案しており、新しいベンチマークであるQiskitHumanEvalSimXにつながっている。
関連論文リスト
- ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Proto Successor Measure: Representing the Behavior Space of an RL Agent [37.55496993803242]
汎用強化学習アルゴリズムでは「ゼロショット学習」が有効である。
本稿では,強化学習エージェントのすべての行動に対する基礎セットとして,Proto Successor Measureを提案する。
我々は,環境から報酬のないインタラクションデータを用いて,これらの基礎関数を学習する実用的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-11-29T00:09:39Z) - Interpretable Prognostics with Concept Bottleneck Models [5.939858158928473]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、概念的説明に基づいて本質的に解釈可能なニューラルネットワークアーキテクチャである。
CBMはドメインの専門家がテスト時にコンセプトアクティベーションに介入できるようにする。
ケーススタディでは,CBMの性能がブラックボックスモデルと同等か優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-27T18:15:40Z) - Hybrid Predictive Coding: Inferring, Fast and Slow [62.997667081978825]
本稿では,反復型と償却型の両方を原則的に組み合わせたハイブリッド予測符号化ネットワークを提案する。
我々は,本モデルが本質的に不確実性に敏感であり,最小計算費用を用いて正確な信念を得るためにバランスを適応的にバランスさせることを実証した。
論文 参考訳(メタデータ) (2022-04-05T12:52:45Z) - Deep active inference agents using Monte-Carlo methods [3.8233569758620054]
モンテカルロサンプリングを用いた連続状態空間における深部能動推論エージェント構築のためのニューラルアーキテクチャを提案する。
提案手法は,タスク性能を維持しつつ,環境動態を効率的に学習することを可能にする。
その結果、深層能動推論は生物学的にインスパイアされた知的エージェントを開発するための柔軟な枠組みを提供することが示された。
論文 参考訳(メタデータ) (2020-06-07T15:10:42Z) - Coagent Networks Revisited [10.45819881530349]
共役ネットワークは、強化学習環境で行動を起こすために協力するエージェントの任意のネットワークの概念を定式化する。
まず、共役ネットワークに該当する多種多様な事例について統一的な視点を提供する。
我々は、新しい、直感的な実行パスのアイデアによって実現された、Coagentネットワークにおける実行のルールを形式化する。
論文 参考訳(メタデータ) (2020-01-28T17:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。