論文の概要: Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks
- arxiv url: http://arxiv.org/abs/2412.12544v1
- Date: Tue, 17 Dec 2024 05:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:05.514978
- Title: Seed-CTS: Unleashing the Power of Tree Search for Superior Performance in Competitive Coding Tasks
- Title(参考訳): Seed-CTS: 競合的符号化タスクにおける木探索の高機能化
- Authors: Hao Wang, Boyi Liu, Yufeng Zhang, Jie Chen,
- Abstract要約: コード生成に特化して設計された新しいトークンレベルの木探索手法を提案する。
GPT4o-0513(0.245)のpass@100性能を超え,LiveCodeBench-Hardで0.305のパスレートを実現した。
本研究は,競合レベルのコード生成タスクの性能を著しく向上させる木探索の可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 16.853404804069527
- License:
- Abstract: Competition-level code generation tasks pose significant challenges for current state-of-the-art large language models (LLMs). For example, on the LiveCodeBench-Hard dataset, models such as O1-Mini and O1-Preview achieve pass@1 rates of only 0.366 and 0.143, respectively. While tree search techniques have proven effective in domains like mathematics and general coding, their potential in competition-level code generation remains under-explored. In this work, we propose a novel token-level tree search method specifically designed for code generation. Leveraging Qwen2.5-Coder-32B-Instruct, our approach achieves a pass rate of 0.305 on LiveCodeBench-Hard, surpassing the pass@100 performance of GPT4o-0513 (0.245). Furthermore, by integrating Chain-of-Thought (CoT) prompting, we improve our method's performance to 0.351, approaching O1-Mini's pass@1 rate. To ensure reproducibility, we report the average number of generations required per problem by our tree search method on the test set. Our findings underscore the potential of tree search to significantly enhance performance on competition-level code generation tasks. This opens up new possibilities for large-scale synthesis of challenging code problems supervised fine-tuning (SFT) data, advancing competition-level code generation tasks.
- Abstract(参考訳): 競合レベルのコード生成タスクは、現在の最先端の大規模言語モデル(LLM)に重大な課題をもたらす。
例えば、LiveCodeBench-Hardデータセットでは、O1-MiniやO1-Previewといったモデルはそれぞれ0.366と0.143のパス@1レートを達成する。
木探索技術は数学や一般コーディングのような領域で有効であることが証明されているが、競合レベルのコード生成の可能性は未解明のままである。
本研究では,コード生成に特化して設計されたトークンレベルの木探索手法を提案する。
提案手法は,Qwen2.5-Coder-32B-Instructを用いてLiveCodeBench-Hardで0.305のパス率を実現し,GPT4o-0513(0.245)のpass@100性能を上回った。
さらに、Chain-of-Thought(CoT)のプロンプトを統合することで、O1-Miniのpass@1レートに近づき、0.351に改善する。
再現性を確保するため,テストセット上の木探索法により,問題ごとの平均世代数を報告する。
本研究は,競合レベルのコード生成タスクの性能を著しく向上させる木探索の可能性を明らかにするものである。
これにより、ファイナルチューニング(SFT)データを監督し、競合レベルのコード生成タスクを前進させる、挑戦的なコード問題の大規模な合成が可能になった。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation [65.5353313491402]
本稿では,モンテカルロ木探索(MCTS)アルゴリズムを用いて,コードを生成する前に思考レベルの探索を行うRethinkMCTSを紹介する。
我々は,検索中の誤った思考を洗練させるために,微動コード実行フィードバックからの言語フィードバックを構築した。
RethinkMCTSは従来の検索ベースおよびフィードバックベースのコード生成ベースラインよりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-09-15T02:07:28Z) - Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining [3.8608102686867762]
Arctic-SnowCoder-1.3Bは、555Bトークンで事前訓練されたデータ効率のベースコードモデルである。
限られたデータセットでトレーニングされているにもかかわらず、Arctic-SnowCoderはBigCodeBenchで最先端のパフォーマンスを達成する。
全ての評価されたベンチマークで、アークティック・スノウコーダー-1.3Bは1Tトークンで事前訓練されたスターコーダーBase-3Bを上回った。
論文 参考訳(メタデータ) (2024-09-03T22:36:42Z) - A Three-Stage Algorithm for the Closest String Problem on Artificial and Real Gene Sequences [39.58317527488534]
ストロースト文字列問題(Closest String Problem)は、与えられた文字列の集合に属するすべての列から最小距離の文字列を見つけることを目的としたNPハード問題である。
本稿では,次の3段階のアルゴリズムを提案する。まず,検索領域を効果的に見つけるために,検索空間を削減するために,新しいアルファベットプルーニング手法を適用する。
第二に、解を見つけるためのビーム探索の変種を用いる。この方法は、部分解の期待距離スコアに基づいて、新たに開発された誘導関数を利用する。
論文 参考訳(メタデータ) (2024-07-17T21:26:27Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts [31.783388267874738]
NaturalCodeBench (NCB) は、実際のコーディングタスクにおける複雑さと様々なシナリオを反映した、挑戦的なコードベンチマークである。
NCBは、PythonとJavaの402の高品質な問題で構成されており、オンラインコーディングサービスからの自然なユーザクエリから慎重に選択されている。
39 LLMの系統的実験により,NCBにおけるHumanEvalスコアが近いモデル間の性能ギャップが依然として大きいことが判明した。
論文 参考訳(メタデータ) (2024-05-07T17:52:51Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Semantic Scaffolds for Pseudocode-to-Code Generation [47.09844589656143]
プログラムの高レベルな意味的・統語的構成を表す軽量な構造である意味的足場に基づくプログラム生成手法を提案する。
推論中にセマンティックスキャフォールドを使用することで、従来の最先端技術に比べて、トップ100の精度が10%向上する。
論文 参考訳(メタデータ) (2020-05-12T17:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。