Fugu-MT 論文翻訳(概要): B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests

論文の概要: B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests

arxiv url: http://arxiv.org/abs/2409.08692v1
Date: Fri, 13 Sep 2024 10:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 16:58:47.433061
Title: B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests
Title（参考訳）: B4: 可塑性テストによる可塑性コードソリューションの最適評価に向けて
Authors: Mouxiang Chen, Zhongxin Liu, He Tao, Yusu Hong, David Lo, Xin Xia, Jianling Sun,
Abstract要約: ベイズフレームワーク内では、解と試験の間の観測された通過状態の後続確率に基づいて最適な選択戦略が定義されることを示す。本稿では,この最適(計算不可能な)戦略を近似するための効率的な手法を提案する。
参考スコア（独自算出の注目度）: 16.19318541132026
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Selecting the best code solution from multiple generated ones is an essential task in code generation, which can be achieved by using some reliable validators (e.g., developer-written test cases) for assistance. Since reliable test cases are not always available and can be expensive to build in practice, researchers propose to automatically generate test cases to assess code solutions. However, when both code solutions and test cases are plausible and not reliable, selecting the best solution becomes challenging. Although some heuristic strategies have been proposed to tackle this problem, they lack a strong theoretical guarantee and it is still an open question whether an optimal selection strategy exists. Our work contributes in two ways. First, we show that within a Bayesian framework, the optimal selection strategy can be defined based on the posterior probability of the observed passing states between solutions and tests. The problem of identifying the best solution is then framed as an integer programming problem. Second, we propose an efficient approach for approximating this optimal (yet uncomputable) strategy, where the approximation error is bounded by the correctness of prior knowledge. We then incorporate effective prior knowledge to tailor code generation tasks. Both theoretical and empirical studies confirm that existing heuristics are limited in selecting the best solutions with plausible test cases. Our proposed approximated optimal strategy B4 significantly surpasses existing heuristics in selecting code solutions generated by large language models (LLMs) with LLM-generated tests, achieving a relative performance improvement by up to 50% over the strongest heuristic and 246% over the random selection in the most challenging scenarios. Our code is publicly available at https://github.com/ZJU-CTAG/B4.
Abstract（参考訳）: 複数の生成されたコードから最高のコードソリューションを選択することは、コード生成において必須のタスクである。信頼できるテストケースは必ずしも利用可能ではなく、実際に構築するのにコストがかかるため、研究者はコードソリューションを評価するためにテストケースを自動的に生成することを提案している。しかしながら、コードソリューションとテストケースの両方が信頼性が高く、信頼性が低い場合には、最良のソリューションを選択することは難しくなります。この問題に対処するためにいくつかのヒューリスティック戦略が提案されているが、それらには強い理論的保証がなく、最適な選択戦略が存在するかどうかという未解決の問題である。私たちの仕事は2つの方法で貢献する。第一に、ベイズフレームワークにおいて、最適選択戦略は、解と試験の間の観測された通過状態の後続確率に基づいて定義できることを示す。最適解を識別する問題は、整数プログラミング問題としてフレーム化される。第2に,近似誤差が事前知識の正確さによって制限される最適(計算不可能)戦略を近似する効率的な手法を提案する。次に、コード生成タスクの調整に効果的な事前知識を取り入れます。理論的および実証的研究の両方で、既存のヒューリスティックスは、妥当なテストケースを持つ最良の解を選択する際に制限されていることが確認されている。提案した最適戦略 B4 は,LLM を用いた大規模言語モデル (LLM) が生成するコードソリューションの選択において,既存のヒューリスティックをはるかに上回り,最強のヒューリスティックよりも50%,最も難しいシナリオでは246% の相対的な性能向上を実現している。私たちのコードはhttps://github.com/ZJU-CTAG/B4.comで公開されています。

関連論文リスト

How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T18:29:24Z)
AutoCode: LLMs as Problem Setters for Competitive Programming [94.71566758494787]
競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。
論文参考訳（メタデータ） (2025-09-29T17:59:03Z)
A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
大規模言語モデルのテスト時間計算のための2つの原理的アルゴリズムを提案する。理論的には、1つのアルゴリズムの故障確率は、そのテスト時間計算が大きくなるにつれて指数関数的に減衰する。
論文参考訳（メタデータ） (2024-11-29T05:29:47Z)
Learning Multiple Initial Solutions to Optimization Problems [52.9380464408756]
厳密なランタイム制約の下で、同様の最適化問題を順次解決することは、多くのアプリケーションにとって不可欠である。本稿では,問題インスタンスを定義するパラメータが与えられた初期解を多種多様に予測する学習を提案する。提案手法は,すべての評価設定において有意かつ一貫した改善を実現し,必要な初期解の数に応じて効率よくスケールできることを実証した。
論文参考訳（メタデータ） (2024-11-04T15:17:19Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
AutoTest: Evolutionary Code Solution Selection with Test Cases [1.4582633500696451]
本研究では,自動テストケース生成とコードソリューション実行を組み合わせた新しい手法であるAutoTestを提案する。 HumanEvalデータセットは164のプログラミング問題で構成されており、AutoTestはpass@1スコアでベースラインメソッドよりも約10%改善されている。
論文参考訳（メタデータ） (2024-08-22T04:38:41Z)
Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking [11.109866941442641]
Top Passは、多数の候補からの潜在的な正しいソリューションを特定する、コードランキングのアプローチである。これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
論文参考訳（メタデータ） (2024-08-11T07:53:51Z)
Dual-Directed Algorithm Design for Efficient Pure Exploration [11.492736493413103]
有限の選択肢からなる逐次適応実験の文脈における純粋探索問題を考える。サンプルの最適な割り当てに対する強い収束の概念の観点から、最適性の十分な条件を導出する。我々のアルゴリズムは、$epsilon$-best-armの識別としきい値の帯域幅問題に最適である。
論文参考訳（メタデータ） (2023-10-30T07:29:17Z)
Functional Overlap Reranking for Neural Code Generation [6.665515707408405]
SRankは、コード生成から最良のソリューションを選択するための、新しいランク付け戦略である。ソリューションクラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
論文参考訳（メタデータ） (2023-10-16T22:20:31Z)
Coverage Goal Selector for Combining Multiple Criteria in Search-Based Unit Test Generation [26.121557667962556]
単体テストは、プログラム内のプログラミングユニットの正しさを保証するために重要である。検索ベースのソフトウェアテスト(SBST)は、テストケースを生成する自動化アプローチである。
論文参考訳（メタデータ） (2023-09-14T08:35:03Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文参考訳（メタデータ） (2022-01-28T05:53:28Z)
Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文参考訳（メタデータ） (2021-12-23T02:31:50Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。