論文の概要: You Don't Need Public Tests to Generate Correct Code
- arxiv url: http://arxiv.org/abs/2604.21598v2
- Date: Tue, 28 Apr 2026 05:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.808721
- Title: You Don't Need Public Tests to Generate Correct Code
- Title(参考訳): 正しいコードを生成するために公開テストは必要ない
- Authors: Kaushitha Silva, Srinath Perera,
- Abstract要約: 大規模言語モデルには,有効な入力を自律的に構築し,自己補正のための実行フローをシミュレートする能力があることを示す。
我々は,LLMが反復的に計画し,独自のテスト入力を合成し,シミュレートされた実行を行うことで,地平データの必要性を解消するフレームワークであるDryRUNを紹介した。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems are frequently employed for autonomous code generation, demonstrating strong utility in complex algorithmic problem-solving. Recent studies tackle the difficulty of producing functionally correct programs by leveraging simulation-guided planning and debugging, wherein language models step through execution traces to validate logic. Nevertheless, these methods rely heavily on human-authored public test cases to anchor the simulation and debugging cycles. Hand-crafting exhaustive input-output pairs creates a significant, labor-intensive bottleneck within the software development lifecycle. Since ground-truth examples are seldom accessible before actual implementation in real-world scenarios, this reliance limits existing approaches primarily to curated competitive programming datasets. Additionally, we demonstrate that depending on these public tests creates an "overconfidence gap," leading frameworks to overfit to basic examples and underperform on hidden test suites. Conversely, we note that external input samples are not an absolute requirement for successful code generation. We show that large language models possess the capability to autonomously construct valid inputs and simulate execution flows for self-correction. Building on this, we introduce DryRUN, a framework that removes the necessity for ground-truth data by enabling the LLM to iteratively plan, synthesize its own test inputs, and run simulated executions, thereby mitigating algorithmic overconfidence. Assessments using the LiveCodeBench v6 dataset (post-March 2025) reveal that DryRUN achieves comparable performance to CodeSIM, a state-of-the-art, test-dependent baseline. Notably, it does so entirely without public tests or external execution signals, all while decreasing overall output token usage.
- Abstract(参考訳): マルチエージェントシステムは、しばしば自律的なコード生成に使われ、複雑なアルゴリズムの問題解決において強力な有用性を示す。
近年の研究では、シミュレーション誘導計画とデバッギングを利用して、言語モデルが実行トレースをステップしてロジックを検証することで、機能的に正しいプログラムを作成することの難しさに対処している。
それでもこれらの手法は、シミュレーションとデバッグのサイクルをアンロックするために、人間による公開テストケースに大きく依存している。
手作りの徹底的なインプットアウトプットペアは、ソフトウェア開発ライフサイクルにおいて、重要な、労働集約的なボトルネックを生み出します。
実世界のシナリオで実際に実装される前には、地味な例はほとんどアクセスできないため、この依存は既存のアプローチを主に競合プログラミングデータセットのキュレーションに制限する。
さらに、これらの公開テストに依存すると、"過信ギャップ"が発生し、フレームワークが基本的な例に過度に適合し、隠れたテストスイートで過度にパフォーマンスすることを示した。
逆に、外部入力サンプルは、コード生成を成功させる絶対的な要件ではないことに留意する。
大規模言語モデルには,有効な入力を自律的に構築し,自己補正のための実行フローをシミュレートする能力があることを示す。
そこで我々は,LLMが反復的に計画し,独自のテスト入力を合成し,シミュレートされた実行を実行し,アルゴリズムの過信を軽減し,地平データの必要性を解消するフレームワークであるDryRUNを紹介した。
LiveCodeBench v6データセット(2025年3月以降)を使用した評価では、DryRUNは最先端のテスト依存ベースラインであるCodeSIMと同等のパフォーマンスを達成している。
特に、全体的なアウトプットトークンの使用量を減らしながら、公開テストや外部実行シグナルをまったく必要としない。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Self-Execution Simulation Improves Coding Models [37.139165988182654]
プログラム実行をステップバイステップでシミュレートするために、Code LLMをトレーニングできることを示します。
提案手法は、自然言語実行トレースの教師付き微調整と、真の実行に基づくテキスト説明と強化学習を組み合わせたものである。
論文 参考訳(メタデータ) (2026-03-11T15:28:22Z) - SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation [1.8797634116550468]
大規模言語モデル(LLM)は、最近、Verilogコード生成を自動化するための有望なアプローチとして登場した。
本研究では,統合テストベンチ駆動検証を用いた推論指向トレーニングデータ生成のための統合マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-10T06:43:20Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Revisit Self-Debugging with Self-Generated Tests for Code Generation [18.643472696246686]
自己生成テストによる自己改善は、有望なソリューションだが、その限界と現実的な可能性を十分に探求することができない。
プロセスにはポストエグゼクティブとインエグゼクティブ自己老化という2つのパラダイムを提案する。
実行後の自己老化は基本的な問題に苦しむが、自己生成テストによって生じるバイアスのため、競合する問題の改善の可能性を示す。
論文 参考訳(メタデータ) (2025-01-22T10:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。