論文の概要: DryRUN: On the Role of Public Tests in LLM-Driven Code Generation
- arxiv url: http://arxiv.org/abs/2604.21598v1
- Date: Thu, 23 Apr 2026 12:21:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.487603
- Title: DryRUN: On the Role of Public Tests in LLM-Driven Code Generation
- Title(参考訳): DryRUN: LLM駆動コード生成における公開テストの役割について
- Authors: Kaushitha Silva, Srinath Perera,
- Abstract要約: 地中構造サンプルの必要性を解消するフレームワークであるDryRUNを開発した。
大規模言語モデルでは、有効な入力を自律的に生成し、実行トレースを自己修正にシミュレートできることを実証する。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent frameworks are widely used in autonomous code generation and have applications in complex algorithmic problem-solving. Recent work has addressed the challenge of generating functionally correct code by incorporating simulation-driven planning and debugging, where language models trace execution steps to verify logic. However, these approaches depend on human-provided public test cases to ground the debugging and simulation loop. Manually authoring comprehensive input-output examples is a labor-intensive bottleneck in the software development lifecycle. Because ground-truth input-output examples are rarely available prior to implementation in real-world software engineering, this dependency restricts methods to curated competitive programming benchmarks. Furthermore, we identify that reliance on these public tests induces an ``overconfidence gap,'' causing frameworks to overfit to simplistic examples and fail on hidden evaluations. In contrast, we observe that external sample inputs are not strictly necessary for code generation. We demonstrate that large language models can autonomously generate valid inputs and simulate execution traces to self-correct. Consequently, we develop DryRUN, a framework that eliminates the need for ground-truth samples by allowing the LLM to iteratively plan, autonomously generate its own inputs and simulate execution, mitigating algorithmic overconfidence. Evaluations on the LiveCodeBench v6 dataset (post-March 2025) demonstrate that DryRUN matches performance against CodeSIM, a state-of-the-art and public-test-dependent framework, while operating entirely without public test cases or external execution feedback while reducing output token consumption.
- Abstract(参考訳): マルチエージェントフレームワークは、自律的なコード生成に広く使われ、複雑なアルゴリズムによる問題解決に応用されている。
最近の研究は、シミュレーション駆動の計画とデバッギングを組み込むことで、関数的に正しいコードを生成するという課題に対処している。
しかしながら、これらのアプローチは、デバッグとシミュレーションのループを基盤とする人為的な公開テストケースに依存している。
包括的なインプット・アウトプットの例を手作業で作成することは、ソフトウェア開発ライフサイクルにおける労働集約的なボトルネックである。
実世界のソフトウェアエンジニアリングで実装される前には、基調的な入力出力の例はめったに利用できないため、この依存関係は、競合するベンチマークにメソッドを限定する。
さらに、これらの公開テストへの依存は'過剰な信頼ギャップ'を生じさせ、フレームワークが単純な例に過度に適合し、隠れた評価に失敗することを明らかにする。
対照的に、コード生成に外部サンプル入力は厳密には必要ない。
大規模言語モデルでは、有効な入力を自律的に生成し、実行トレースを自己修正にシミュレートできることを実証する。
そこで我々は,LLMを反復的に計画し,自己の入力を自動生成し,実行をシミュレートし,アルゴリズムの過信を緩和することにより,地中構造サンプルの必要性を解消するフレームワークであるDryRUNを開発した。
LiveCodeBench v6データセット(2025年3月以降)の評価では、DryRUNは出力トークンの消費を減らしながら、公開テストケースや外部実行フィードバックなしで完全に運用しながら、最先端でパブリックなテスト依存フレームワークであるCodeSIMとパフォーマンスを比較できる。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Self-Execution Simulation Improves Coding Models [37.139165988182654]
プログラム実行をステップバイステップでシミュレートするために、Code LLMをトレーニングできることを示します。
提案手法は、自然言語実行トレースの教師付き微調整と、真の実行に基づくテキスト説明と強化学習を組み合わせたものである。
論文 参考訳(メタデータ) (2026-03-11T15:28:22Z) - SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation [1.8797634116550468]
大規模言語モデル(LLM)は、最近、Verilogコード生成を自動化するための有望なアプローチとして登場した。
本研究では,統合テストベンチ駆動検証を用いた推論指向トレーニングデータ生成のための統合マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-10T06:43:20Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Revisit Self-Debugging with Self-Generated Tests for Code Generation [18.643472696246686]
自己生成テストによる自己改善は、有望なソリューションだが、その限界と現実的な可能性を十分に探求することができない。
プロセスにはポストエグゼクティブとインエグゼクティブ自己老化という2つのパラダイムを提案する。
実行後の自己老化は基本的な問題に苦しむが、自己生成テストによって生じるバイアスのため、競合する問題の改善の可能性を示す。
論文 参考訳(メタデータ) (2025-01-22T10:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。