論文の概要: Online Prompt Selection for Program Synthesis
- arxiv url: http://arxiv.org/abs/2501.05247v2
- Date: Wed, 29 Jan 2025 16:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:29.358728
- Title: Online Prompt Selection for Program Synthesis
- Title(参考訳): プログラム合成のためのオンラインプロンプト選択
- Authors: Yixuan Li, Lewis Frampton, Federico Mora, Elizabeth Polgreen,
- Abstract要約: 大規模言語モデル(LLM)は、プログラム合成の領域における印象的な機能を示している。
ユーザにとって重要な課題は、LLMがソルバの適切な選択であるかどうか、与えられた合成タスクを呼び出すのに適切なLLM、そしてそれを呼び出す正しい方法であるかどうかを特定することである。
我々は、マルチアームのバンディットアルゴリズムを用いて、どのシンボルソルバ(LLM)を選択し、与えられた報酬関数を最大化するために、即座に組み合わせてデプロイする。
- 参考スコア(独自算出の注目度): 14.188804919928591
- License:
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities in the domain of program synthesis. This level of performance is not, however, universal across all tasks, all LLMs and all prompting styles. There are many areas where one LLM dominates, one prompting style dominates, or where calling a symbolic solver is a better choice than an LLM. A key challenge for the user then, is to identify not only when an LLM is the right choice of solver, and the appropriate LLM to call for a given synthesis task, but also the right way to call it. A non-expert user who makes the wrong choice, incurs a cost both in terms of results (number of tasks solved, and the time it takes to solve them) and financial cost, if using a closed-source language model via a commercial API. We frame this choice as an online learning problem. We use a multi-armed bandit algorithm to select which symbolic solver, or LLM and prompt combination to deploy in order to maximize a given reward function (which may prioritize solving time, number of synthesis tasks solved, or financial cost of solving). We implement an instance of this approach, called CYANEA, and evaluate it on synthesis queries from the literature in ranking function synthesis, from the syntax-guided synthesis competition, and fresh, unseen queries generated from SMT problems. CYANEA solves 37.2% more queries than the best single solver and achieves results within 4% of the virtual best solver.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラム合成の領域における印象的な機能を示している。
しかし、このレベルのパフォーマンスは全てのタスク、全てのLLM、全てのプロンプトスタイルで普遍的ではない。
1つの LLM が支配的であり、1つのプロンプトスタイルが支配的であり、シンボルソルバの呼び出しが LLM よりもよい選択である領域が多数存在する。
ユーザにとって重要な課題は、LLMが正しい解法の選択である場合だけでなく、与えられた合成タスクを呼び出すのに適したLLMが、それを呼び出す正しい方法であるかどうかを特定することである。
間違った選択をする非専門家のユーザは、商用APIを通じてクローズドソース言語モデルを使用する場合、結果(解決したタスクの数と解決に要する時間)と金銭の両方のコストを発生させる。
私たちはこの選択をオンライン学習の問題と捉えています。
我々は,与えられた報酬関数(解法時間,合成タスク数,解法費用)を最大化するために,マルチアームバンディットアルゴリズムを用いて,どのシンボルソルバ(LLM)を選択し,組み合わせを迅速に展開する。
本稿では, CYANEAと呼ばれるこのアプローチのインスタンスを実装し, ランキング関数合成における文献からの合成クエリ, 構文誘導合成コンペ, SMT問題から生成した新鮮で未知のクエリについて評価する。
CYANEAは、最高のシングルソルバよりも37.2%多くのクエリを解決し、仮想ベストソルバの4%で結果を得る。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [21.689490112983677]
分類タスクに最適な大言語モデル(LLM)に各クエリを動的にルーティングするフレームワークであるMetaLLMを紹介する。
多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。
LLMプラットフォーム上で実施した本実験では,メタLLMの有効性を実世界のシナリオで示す。
論文 参考訳(メタデータ) (2024-07-15T15:45:07Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。
意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文 参考訳(メタデータ) (2024-03-04T19:12:48Z) - All Language Models Large and Small [4.676589803026312]
多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。
これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。
本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-02-19T11:28:20Z) - Solving Math Word Problem with Problem Type Classification [12.700472956406005]
数学語問題(MWP)は、解を導出するためにテキスト記述を分析し、数学的方程式を生成する必要がある。
既存の研究は、木ベースの解法と大規模言語モデル(LLM)の2種類の解法でMWPを解くことに重点を置いている。
本稿では,MWP解決能力の向上に複数のアンサンブル手法を用いる。
論文 参考訳(メタデータ) (2023-08-26T10:35:16Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - LLM+P: Empowering Large Language Models with Optimal Planning
Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。
古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。
本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文 参考訳(メタデータ) (2023-04-22T20:34:03Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-22T05:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。