論文の概要: Code Generation by Differential Test Time Scaling
- arxiv url: http://arxiv.org/abs/2605.20473v1
- Date: Tue, 19 May 2026 20:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.368562
- Title: Code Generation by Differential Test Time Scaling
- Title(参考訳): 差分テスト時間スケーリングによるコード生成
- Authors: Yifeng He, Ethan Wang, Jicheng Wang, Xuanxin Ouyang, Hao Chen,
- Abstract要約: 本稿では,カバレッジ誘導差分解析に基づくコード生成のための新しいテスト時間スケーリング手法であるDiffCodeGenを提案する。
DiffCodeGenは、様々なサンプリングとプロンプト戦略を使用して多様なコード候補を生成し、次に、カバレッジ誘導ファジィを適用して入力を合成する。
DiffCodeGenを4つの大きな言語モデルで評価し、ベースラインよりも一貫した改善を実証した。
- 参考スコア(独自算出の注目度): 6.010475606189453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling has emerged as a promising approach for improving code generation by exploring large solution spaces at inference time. However, existing methods often rely on public test cases that are unavailable in practice, or require extensive LLM inference for candidate selection, leading to significant token consumption and time overhead. We present DiffCodeGen, a novel test-time scaling method for code generation based on coverage-guided differential analysis. DiffCodeGen generates diverse code candidates using various sampling and prompting strategies, then applies coverage-guided fuzzing to synthesize inputs without requiring any existing tests or large language models. By executing all candidates on these inputs, DiffCodeGen captures their dynamic behavior and clusters candidates based on behavioral similarity. DiffCodeGen selects the medoid of the largest cluster as the final output. Unlike prior test-time scaling methods that invoke additional LLM inference for candidate selection, DiffCodeGen performs selection without any extra model calls, incurring little to no additional token consumption. DiffCodeGen is fully asynchronous, naturally suited to the current trend of agentic coding, and is thus efficient and highly scalable. We evaluate DiffCodeGen across 4 large language models, demonstrating consistent improvements over baselines. Compared to state-of-the-art test-time scaling methods, DiffCodeGen achieves competitive or superior performance while using only a fraction of time and tokens. DiffCodeGen is model-agnostic and can be combined with reasoning models to further boost performance.
- Abstract(参考訳): 大規模なソリューションスペースを推論時に探索することで、コード生成を改善するための有望なアプローチとして、テストタイムスケーリングが登場した。
しかしながら、既存のメソッドは、実際には利用できない公開テストケースに依存したり、候補の選択に広範囲なLLM推論を必要とする場合が多いため、トークンの消費と時間のオーバーヘッドが大きくなる。
本稿では,カバレッジ誘導差分解析に基づくコード生成のための新しいテスト時間スケーリング手法であるDiffCodeGenを提案する。
DiffCodeGenは、様々なサンプリングとプロンプト戦略を使用して多様なコード候補を生成し、既存のテストや大きな言語モデルを必要としない入力を合成するためにカバレッジ誘導ファジングを適用する。
これらの入力ですべての候補を実行することで、DiffCodeGenは、振る舞いの類似性に基づいて、動的な振る舞いとクラスタの候補をキャプチャする。
DiffCodeGenは、最大のクラスタのメドロイドを最終的な出力として選択する。
DiffCodeGenは、候補選択のために追加のLLM推論を実行する以前のテスト時間スケーリングメソッドとは異なり、追加のモデル呼び出しなしで選択を行い、追加のトークン消費はほとんど発生しない。
DiffCodeGenは、完全に非同期であり、エージェントコーディングの現在のトレンドに自然に適合しているため、効率的でスケーラブルである。
DiffCodeGenを4つの大きな言語モデルで評価し、ベースラインよりも一貫した改善を実証した。
最先端のテスト時間スケーリング手法と比較して、DiffCodeGenは、ほんのわずかな時間とトークンを使用しながら、競争力または優れたパフォーマンスを達成する。
DiffCodeGenはモデルに依存しないため、推論モデルと組み合わせてパフォーマンスをさらに向上することができる。
関連論文リスト
- $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - Latency and Token-Aware Test-Time Compute [3.573250939705335]
推測時間スケーリングは、複数の候補応答を生成し、それらの中から選択することで、大きな言語モデル(LLM)の性能を向上させることができる。
動的計算アロケーションとメソッド選択の問題として,推論時間スケーリングを定式化する。
我々のフレームワークはトークンコストとウォールクロックのレイテンシの両方を明示的に組み込んでおり、後者はユーザエクスペリエンス、特にエージェントモデルにとって重要なものです。
論文 参考訳(メタデータ) (2025-09-11T21:35:19Z) - Scaling Up, Speeding Up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling [38.27469349005585]
テストタイムスケーリングは、大規模言語モデルの推論能力を高めるための強力なパラダイムである。
テストタイムのスケーリングは、冗長かつ反復的な推論トレースの生成によって本質的に非効率である。
テスト時間スケーリングを高速化する投機的復号法を評価するために設計された最初の包括的なベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-08-30T01:54:55Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - Trust but Verify! A Survey on Verification Design for Test-time Scaling [8.428618801719198]
テスト時スケーリング(TTS)は,大規模言語モデルのパフォーマンス向上のための新たなフロンティアとして登場した。
検証者は、復号プロセスから候補出力をスコアするのに役立つ報酬モデルとして機能する。
検証者は、素早いベースで、識別または生成モデルとして微調整することができる。
論文 参考訳(メタデータ) (2025-08-20T22:27:21Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。