論文の概要: Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency
- arxiv url: http://arxiv.org/abs/2406.12502v1
- Date: Tue, 18 Jun 2024 11:05:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:17:37.216390
- Title: Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency
- Title(参考訳): コード最適化: 正確性と効率性のための自己生成の選好データ
- Authors: Leonidas Gee, Milan Gritta, Gerasimos Lampouras, Ignacio Iacobacci,
- Abstract要約: Code-Optimiseは、正確性(パス、フェール)とランタイムの両方を学習信号として組み込んだフレームワークです。
私たちのフレームワークは軽量で堅牢で、オーバーフィッティングを減らすためのソリューションを動的に選択します。
副生成物として、生成した溶液の平均長はMBPPで48%、HumanEvalで23%減少する。
- 参考スコア(独自算出の注目度): 15.593172556501704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code Language Models have been trained to generate accurate solutions, typically with no regard for runtime. On the other hand, previous works that explored execution optimisation have observed corresponding drops in functional correctness. To that end, we introduce Code-Optimise, a framework that incorporates both correctness (passed, failed) and runtime (quick, slow) as learning signals via self-generated preference data. Our framework is both lightweight and robust as it dynamically selects solutions to reduce overfitting while avoiding a reliance on larger models for learning signals. Code-Optimise achieves significant improvements in pass@k while decreasing the competitive baseline runtimes by an additional 6% for in-domain data and up to 3% for out-of-domain data. As a byproduct, the average length of the generated solutions is reduced by up to 48% on MBPP and 23% on HumanEval, resulting in faster and cheaper inference. The generated data and codebase will be open-sourced at www.open-source.link.
- Abstract(参考訳): コード言語モデルは、実行時を考慮せずに、正確なソリューションを生成するように訓練されています。
一方, 実行最適化を探求する以前の研究では, 機能的正しさの低下が観測されている。
そこで我々は,自己生成された選好データによる学習信号として,正確性(パスト,フェール)と実行時(クイック,スロー)の両方を組み込んだフレームワークであるCode-Optimiseを紹介する。
当社のフレームワークは,学習信号の大規模モデルへの依存を回避しつつ,過度に適合するソリューションを動的に選択するので,軽量かつ堅牢である。
Code-Optimiseはpass@kを大幅に改善し、競合するベースラインランタイムを6%のドメイン内データ、最大3%のドメイン外データで削減する。
副生成物として、生成した溶液の平均長はMBPPで48%、HumanEvalで23%減少し、より高速で安価に推測できる。
生成されたデータとコードベースはwww.open-source.linkでオープンソース化される。
関連論文リスト
- CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Brevity is the soul of wit: Pruning long files for code generation [19.61423412870527]
計算に制限のある状況下では、単純な長文ファイルが他の方法より優れていることが分かる。
本手法は,HumanEvalの学習効率を最大2倍に向上させるか,あるいは3.5%の絶対性能向上を達成できる。
論文 参考訳(メタデータ) (2024-06-29T13:08:24Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [68.75387874066647]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化フレームワークを提案する。
我々のアプローチは、Human3.6Mの4.5%という大きなマージンで、過去最高の結果を上回っている。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Fast Optimization of Weighted Sparse Decision Trees for use in Optimal
Treatment Regimes and Optimal Policy Design [16.512942230284576]
本稿では,効率的な重み付き決定木最適化のための3つのアルゴリズムを提案する。
最初のアプローチでは、重み付き損失関数を直接最適化するが、大規模なデータセットでは計算的に非効率である傾向がある。
第二のアプローチは、より効率的にスケールし、重みを整数値に変換し、データ重複を使って重み付けされた決定木最適化問題を非重み付き(より大きい)問題に変換する。
より大きなデータセットにスケールする第3のアルゴリズムは、各データポイントをその重みに比例した確率でサンプリングするランダム化された手順を使用する。
論文 参考訳(メタデータ) (2022-10-13T08:16:03Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。