論文の概要: Planning In Natural Language Improves LLM Search For Code Generation
- arxiv url: http://arxiv.org/abs/2409.03733v1
- Date: Thu, 5 Sep 2024 17:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:43:43.701168
- Title: Planning In Natural Language Improves LLM Search For Code Generation
- Title(参考訳): 自然言語のプランニングによりコード生成のためのLLM検索が改善
- Authors: Evan Wang, Federico Cassano, Catherine Wu, Yunfeng Bai, Will Song, Vaskar Nath, Ziwen Han, Sean Hendryx, Summer Yue, Hugh Zhang,
- Abstract要約: そこで, PLANSEARCHは, 直接コード解決ではなく, 自然言語による問題解決計画の探索を行う。
PLANSEARCHはLiveCodeBenchで77.0%の最先端パス@200を達成する。
すべてのモデル、検索アルゴリズム、および分析したベンチマークにおいて、生成したアイデアに対する多様性の直接的な関数として検索による性能向上を正確に予測できることが示される。
- 参考スコア(独自算出の注目度): 5.370466208990696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While scaling training compute has led to remarkable improvements in large language models (LLMs), scaling inference compute has not yet yielded analogous gains. We hypothesize that a core missing component is a lack of diverse LLM outputs, leading to inefficient search due to models repeatedly sampling highly similar, yet incorrect generations. We empirically demonstrate that this lack of diversity can be mitigated by searching over candidate plans for solving a problem in natural language. Based on this insight, we propose PLANSEARCH, a novel search algorithm which shows strong results across HumanEval+, MBPP+, and LiveCodeBench (a contamination-free benchmark for competitive coding). PLANSEARCH generates a diverse set of observations about the problem and then uses these observations to construct plans for solving the problem. By searching over plans in natural language rather than directly over code solutions, PLANSEARCH explores a significantly more diverse range of potential solutions compared to baseline search methods. Using PLANSEARCH on top of Claude 3.5 Sonnet achieves a state-of-the-art pass@200 of 77.0% on LiveCodeBench, outperforming both the best score achieved without search (pass@1 = 41.4%) and using standard repeated sampling (pass@200 = 60.6%). Finally, we show that, across all models, search algorithms, and benchmarks analyzed, we can accurately predict performance gains due to search as a direct function of the diversity over generated ideas.
- Abstract(参考訳): 大規模言語モデル(LLM)では、スケールトレーニング計算が顕著に改善されているが、スケーリング推論計算では、まだ類似のゲインが得られていない。
我々は、中核的な欠落成分は多様なLCM出力の欠如であり、モデルが非常によく似ているが誤りな世代を繰り返しサンプリングするため、非効率な探索につながると仮定する。
この多様性の欠如は、自然言語の問題を解決するための候補プランを探索することによって緩和可能であることを実証的に実証する。
この知見に基づいて,HumanEval+,MBPP+,LiveCodeBench(競合コーディングのための汚染のないベンチマーク)にまたがる強力な結果を示す新しい検索アルゴリズムPLANSEARCHを提案する。
PLANSEARCHは問題に関する様々な観測結果を生成し、これらの観測結果を用いて問題を解決するための計画を構築する。
PLANSEARCHは、コード解を直接ではなく自然言語で探索することによって、ベースライン探索法よりもはるかに多様な潜在的な解を探索する。
Claude 3.5 Sonnet上でPLANSEARCHを使用すると、LiveCodeBench上で77.0%の最先端パス@200が達成され、検索なしで最高のスコア(pass@1 = 41.4%)と標準繰り返しサンプリング(pass@200 = 60.6%)の両方を上回っている。
最後に、分析したモデル、検索アルゴリズム、およびベンチマークにおいて、生成したアイデアに対する多様性の直接的な関数として検索による性能向上を正確に予測できることを示す。
関連論文リスト
- A Three-Stage Algorithm for the Closest String Problem on Artificial and Real Gene Sequences [39.58317527488534]
ストロースト文字列問題(Closest String Problem)は、与えられた文字列の集合に属するすべての列から最小距離の文字列を見つけることを目的としたNPハード問題である。
本稿では,次の3段階のアルゴリズムを提案する。まず,検索領域を効果的に見つけるために,検索空間を削減するために,新しいアルファベットプルーニング手法を適用する。
第二に、解を見つけるためのビーム探索の変種を用いる。この方法は、部分解の期待距離スコアに基づいて、新たに開発された誘導関数を利用する。
論文 参考訳(メタデータ) (2024-07-17T21:26:27Z) - A Training Data Recipe to Accelerate A* Search with Language Models [3.037409201025504]
A*のような検索アルゴリズムを備えた大規模言語モデル(LLM)は、拡張された推論とスケーラブルな推論の約束を持っている。
我々は,A*探索アルゴリズムの要件を LLM の要件から実験的に切り離して,この課題を一般化する。
提案手法は,解を見つけるのに要する反復回数を最大15倍に削減し,壁面通過速度を最大5倍に向上させる。
論文 参考訳(メタデータ) (2024-07-13T19:21:44Z) - Uncertainty-Guided Optimization on Large Language Model Search Trees [42.71167208999792]
大規模言語モデル(LLM)の復号過程における最大可能性列の探索においては,greedy や beam search などの木探索アルゴリズムが標準となっている。
LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。
モンテカルロ木探索のような高価なシミュレーションに基づく非光学的手法とは異なり、我々の手法は信念からのサンプルのみを必要とする。
論文 参考訳(メタデータ) (2024-07-04T14:08:50Z) - Stream of Search (SoS): Learning to Search in Language [29.841835308845948]
本稿では,言語における探索の過程をフラットな文字列として表現することで,言語モデルがどのように学習するかを示す。
本稿では,複数のシンボル検索戦略を抽出する統一言語を提案する。
この結果から,言語モデルでは,探索による問題解決や,異なる探索戦略を柔軟に活用する自己改善,新たな探索手法の発見などが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-01T06:50:52Z) - Hybrid Search for Efficient Planning with Completeness Guarantees [63.02803974708516]
本稿では,離散的な行動空間における完全性を実現するために,部分ゴール探索法を効果的に拡張する手法を提案する。
このソリューションは、高レベルの探索の実践的効率と低レベルの探索の完全性という、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-10-19T15:16:43Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Learning To Dive In Branch And Bound [95.13209326119153]
グラフニューラルネットワークを用いて特定の潜水構造を学習するためのL2Diveを提案する。
我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して潜水決定を行う。
論文 参考訳(メタデータ) (2023-01-24T12:01:45Z) - Best-$k$ Search Algorithm for Neural Text Generation [118.02691398555781]
本稿では,品質と多様性のバランスをとる決定論的探索アルゴリズムを提案する。
提案アルゴリズムはパラメータフリーで、軽量で、効率的で、使いやすくなっている。
論文 参考訳(メタデータ) (2022-11-22T00:26:13Z) - Learning a Large Neighborhood Search Algorithm for Mixed Integer
Programs [6.084888301899142]
混合整数プログラム(MIP)に対する学習型LSSアプローチの検討
ニューラル・ディバイディング・モデルを用いて代入よりも確率分布を表現し、既製のMIPソルバとともに初期代入を生成する。
そこで我々はニューラル近隣選択ポリシーを訓練し,各ステップで探索地区を選択する。
論文 参考訳(メタデータ) (2021-07-21T16:43:46Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。