論文の概要: Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks
- arxiv url: http://arxiv.org/abs/2412.12544v2
- Date: Sat, 28 Dec 2024 02:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:30.759765
- Title: Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks
- Title(参考訳): Seed-CTS: 競合的符号化タスクにおける木探索の高機能化
- Authors: Hao Wang, Boyi Liu, Yufeng Zhang, Jie Chen,
- Abstract要約: コード生成に特化して設計された新しいトークンレベルの木探索手法を提案する。
GPT4o-0513(0.245)のpass@100性能を超え,LiveCodeBench-Hardで0.305のパスレートを実現した。
本研究は,競合レベルのコード生成タスクの性能を著しく向上させる木探索の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 16.853404804069527
- License:
- Abstract: Competition-level code generation tasks pose significant challenges for current state-of-the-art large language models (LLMs). For example, on the LiveCodeBench-Hard dataset, models such as O1-Mini and O1-Preview achieve pass@1 rates of only 0.366 and 0.143, respectively. While tree search techniques have proven effective in domains like mathematics and general coding, their potential in competition-level code generation remains under-explored. In this work, we propose a novel token-level tree search method specifically designed for code generation. Leveraging Qwen2.5-Coder-32B-Instruct, our approach achieves a pass rate of 0.305 on LiveCodeBench-Hard, surpassing the pass@100 performance of GPT4o-0513 (0.245). Furthermore, by integrating Chain-of-Thought (CoT) prompting, we improve our method's performance to 0.351, approaching O1-Mini's pass@1 rate. To ensure reproducibility, we report the average number of generations required per problem by our tree search method on the test set. Our findings underscore the potential of tree search to significantly enhance performance on competition-level code generation tasks. This opens up new possibilities for large-scale synthesis of challenging code problems supervised fine-tuning (SFT) data, advancing competition-level code generation tasks.
- Abstract(参考訳): 競合レベルのコード生成タスクは、現在の最先端の大規模言語モデル(LLM)に重大な課題をもたらす。
例えば、LiveCodeBench-Hardデータセットでは、O1-MiniやO1-Previewといったモデルはそれぞれ0.366と0.143のパス@1レートを達成する。
木探索技術は数学や一般コーディングのような領域で有効であることが証明されているが、競合レベルのコード生成の可能性は未解明のままである。
本研究では,コード生成に特化して設計されたトークンレベルの木探索手法を提案する。
提案手法は,Qwen2.5-Coder-32B-Instructを用いてLiveCodeBench-Hardで0.305のパス率を実現し,GPT4o-0513(0.245)のpass@100性能を上回った。
さらに、Chain-of-Thought(CoT)のプロンプトを統合することで、O1-Miniのpass@1レートに近づき、0.351に改善する。
再現性を確保するため,テストセット上の木探索法により,問題ごとの平均世代数を報告する。
本研究は,競合レベルのコード生成タスクの性能を著しく向上させる木探索の可能性を明らかにするものである。
これにより、ファイナルチューニング(SFT)データを監督し、競合レベルのコード生成タスクを前進させる、挑戦的なコード問題の大規模な合成が可能になった。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。
我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。
RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-09-15T02:07:28Z) - Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining [3.8608102686867762]
Arctic-SnowCoder-1.3Bは、555Bトークンで事前訓練されたデータ効率のベースコードモデルである。
限られたデータセットでトレーニングされているにもかかわらず、Arctic-SnowCoderはBigCodeBenchで最先端のパフォーマンスを達成する。
全ての評価されたベンチマークで、アークティック・スノウコーダー-1.3Bは1Tトークンで事前訓練されたスターコーダーBase-3Bを上回った。
論文 参考訳(メタデータ) (2024-09-03T22:36:42Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Semantic Scaffolds for Pseudocode-to-Code Generation [47.09844589656143]
プログラムの高レベルな意味的・統語的構成を表す軽量な構造である意味的足場に基づくプログラム生成手法を提案する。
推論中にセマンティックスキャフォールドを使用することで、従来の最先端技術に比べて、トップ100の精度が10%向上する。
論文 参考訳(メタデータ) (2020-05-12T17:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。