論文の概要: Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement
- arxiv url: http://arxiv.org/abs/2502.17442v1
- Date: Mon, 30 Dec 2024 07:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 22:53:28.776105
- Title: Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement
- Title(参考訳): 実行前に考える! 徹底的な探索と最適リファインメントによる効率的なコード生成
- Authors: Xiaoqing Zhang, Yuhan Liu, Flood Sung, Xiuying Chen, Rui Yan,
- Abstract要約: ThinkCoderは、徹底的な探索と最適な改善を組み合わせたフレームワークです。
探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。
このアプローチは、過剰な試行錯誤を避けるために、アクションをとる前に慎重に考慮し、最良のソリューションを選択することを可能にする。
- 参考スコア(独自算出の注目度): 35.991531332335654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code generation is crucial in software engineering for automating the coding process efficiently. While test-time computation methods show promise, they suffer from high latency due to multiple computation rounds. To overcome this, we introduce ThinkCoder, a framework that combines thorough exploration with optimal refinement. The exploration phase diversifies the solution space by searching for potential solutions, followed by a refinement phase that enhances precision. This approach allows us to select the best solution through careful consideration before taking action, avoiding excessive trial and error. To further minimize test-time computation overhead, we introduce preference-driven optimization with Reinforced Self-Training (ReST), which uses exploration trajectories from ThinkCoder to guide LLM's evolution. By learning preferences, this approach improves LLM's exploration efficiency, reducing computational costs while maintaining accuracy. ThinkCoder boosts the performance of multiple base LLMs, excelling on benchmarks like HumanEval and MBPP. Compared to SOTA models, it improves Pass@1 by 1.5\% over MapCoder with just 21.7\% of the computation cost. Against AgentCoder, ThinkCoder achieves a 0.6\% higher Pass@1 after 2 rounds, outperforming AgentCoder's 5 rounds. Additionally, ReST with success trajectories enhances efficiency, allowing models like LLaMA2-7B to achieve competitive results using only 20\% of the computational resources. These results highlight the framework's effectiveness and scalability.
- Abstract(参考訳): コード生成は、コーディングプロセスを効率的に自動化するために、ソフトウェア工学において不可欠である。
テスト時の計算手法は有望であるが、複数の計算ラウンドによってレイテンシが高くなる。
この問題を解決するために、私たちはThinkCoderを紹介します。
探索フェーズは、潜在的な解を探すことによって解空間を多様化し、続いて精度を高める精製フェーズが続く。
このアプローチは、過剰な試行錯誤を避けるために、アクションをとる前に慎重に考慮し、最良のソリューションを選択することを可能にする。
テスト時間計算のオーバーヘッドを最小化するために,ThinkCoder の探索トラジェクトリを用いて LLM の進化を導く Reinforced Self-Training (ReST) を導入している。
好みを学習することで、LLMの探索効率を向上し、精度を維持しながら計算コストを削減できる。
ThinkCoderは、HumanEvalやMBPPのようなベンチマークで優れた複数のベースLLMのパフォーマンスを向上させる。
SOTAモデルと比較して、MapCoderよりもPass@1を1.5 %改善し、計算コストの21.7 %に過ぎなかった。
AgentCoderに対して、ThinkCoderは、2ラウンドでPass@1が0.6\%上昇し、AgentCoderの5ラウンドを上回っている。
さらに、成功軌道を持つReSTは効率を向上し、LLaMA2-7Bのようなモデルでは、計算リソースのわずか20%で競合する結果が得られる。
これらの結果はフレームワークの有効性とスケーラビリティを強調します。
関連論文リスト
- $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation [22.607133083903125]
インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-17T15:38:33Z) - Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning [60.67176246634741]
メタ強化学習(RL)問題としてテスト時間計算を最適化する問題を定式化する。
現状のモデルでは後悔を最小限に抑えることはできないが,結果0/1報酬RLと合わせて報酬ボーナスを最大化することで,それを実現できることを示す。
論文 参考訳(メタデータ) (2025-03-10T17:40:43Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。
我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文 参考訳(メタデータ) (2024-12-19T03:59:26Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - M-L2O: Towards Generalizable Learning-to-Optimize by Test-Time Fast
Self-Adaptation [145.7321032755538]
L2O(Learning to Optimize)は、複雑なタスクの最適化手順を著しく加速させるため、注目を集めている。
本稿では, アウト・オブ・ディストリビューションタスクへの高速なテスト時間自己適応を実現するL2Oをメタトレーニングすることで, このオープンな課題に対する潜在的な解決策を検討する。
論文 参考訳(メタデータ) (2023-02-28T19:23:20Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。