論文の概要: Majority Voting for Code Generation
- arxiv url: http://arxiv.org/abs/2604.15618v1
- Date: Fri, 17 Apr 2026 01:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.700938
- Title: Majority Voting for Code Generation
- Title(参考訳): コード生成のための多数投票
- Authors: Tim Launer, Jonas Hübotter, Marco Bagatella, Ido Hakimi, Andreas Krause,
- Abstract要約: FMV(Functional Majority Voting)が効果的なテスト時間推論戦略であることがわかった。
機能的コンセンサスの有用性を拡張し,ラベルのないテスト時間強化学習の集約戦略として適用する。
- 参考スコア(独自算出の注目度): 34.658913020767024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate Functional Majority Voting (FMV), a method based on functional consensus for code generation with Large Language Models, which identifies a representative solution from multiple generations using their runtime execution signatures on test inputs. We find that FMV is an effective test-time inference strategy, substantially boosting performance on LiveCodeBench without a large compute overhead. Furthermore, we extend the utility of functional consensus and apply it as an aggregation strategy for label-free Test-Time Reinforcement Learning. We demonstrate that this increases pass@1 on holdout tasks, but find no evidence of self-improvement beyond the base model's performance ceiling.
- Abstract(参考訳): 本稿では,大規模言語モデルを用いたコード生成における関数的コンセンサスに基づく関数的多数決投票(FMV)について検討する。
FMVは効率的なテスト時間推論戦略であり,LiveCodeBenchの性能を大幅に向上させる。
さらに,機能的コンセンサスの有用性を拡張し,ラベルのないテスト時間強化学習のための集約戦略として適用する。
これはホールドアウトタスクのpass@1を増大させるが、ベースモデルのパフォーマンス上限を超える自己改善の証拠は見つからない。
関連論文リスト
- UnitTenX: Generating Tests for Legacy Packages with AI Agents Powered by Formal Verification [1.6592567365278768]
UnitTenXは、レガシーコードのユニットテストを生成するように設計された最先端のオープンソースAIマルチエージェントシステムである。
本研究は,高品質なテスト生成と潜在的な問題の同定において,このアプローチの有効性を実証するものである。
論文 参考訳(メタデータ) (2025-10-06T23:08:23Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - Synthesizing Performance Constraints for Evaluating and Improving Code Efficiency [4.292737608159482]
We present WEDGE, a framework for performance-stressing input given the program under test。
WEDGEは、プログラムの実行空間をパフォーマンス固有の領域に分割するために、分岐条件の形で明示的なパフォーマンス特性制約を合成する。
評価の結果、WEDGEは、CodeContestsのテストや既存のアプローチによって最適化されていると主張されたテストと比較して、大幅にスローダウンしていることがわかった。
論文 参考訳(メタデータ) (2025-05-29T14:26:22Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - GenX: Mastering Code and Test Generation with Execution Feedback [7.225594526057816]
本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。
テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。
その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T03:18:21Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。