Fugu-MT 論文翻訳(概要): Online Prompt Selection for Program Synthesis

論文の概要: Online Prompt Selection for Program Synthesis

arxiv url: http://arxiv.org/abs/2501.05247v2
Date: Wed, 29 Jan 2025 16:52:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-30 16:19:24.995154
Title: Online Prompt Selection for Program Synthesis
Title（参考訳）: プログラム合成のためのオンラインプロンプト選択
Authors: Yixuan Li, Lewis Frampton, Federico Mora, Elizabeth Polgreen,
Abstract要約: 大規模言語モデル(LLM)は、プログラム合成の領域における印象的な機能を示している。ユーザにとって重要な課題は、LLMがソルバの適切な選択であるかどうか、与えられた合成タスクを呼び出すのに適切なLLM、そしてそれを呼び出す正しい方法であるかどうかを特定することである。我々は、マルチアームのバンディットアルゴリズムを用いて、どのシンボルソルバ(LLM)を選択し、与えられた報酬関数を最大化するために、即座に組み合わせてデプロイする。
参考スコア（独自算出の注目度）: 14.188804919928591
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) demonstrate impressive capabilities in the domain of program synthesis. This level of performance is not, however, universal across all tasks, all LLMs and all prompting styles. There are many areas where one LLM dominates, one prompting style dominates, or where calling a symbolic solver is a better choice than an LLM. A key challenge for the user then, is to identify not only when an LLM is the right choice of solver, and the appropriate LLM to call for a given synthesis task, but also the right way to call it. A non-expert user who makes the wrong choice, incurs a cost both in terms of results (number of tasks solved, and the time it takes to solve them) and financial cost, if using a closed-source language model via a commercial API. We frame this choice as an online learning problem. We use a multi-armed bandit algorithm to select which symbolic solver, or LLM and prompt combination to deploy in order to maximize a given reward function (which may prioritize solving time, number of synthesis tasks solved, or financial cost of solving). We implement an instance of this approach, called CYANEA, and evaluate it on synthesis queries from the literature in ranking function synthesis, from the syntax-guided synthesis competition, and fresh, unseen queries generated from SMT problems. CYANEA solves 37.2% more queries than the best single solver and achieves results within 4% of the virtual best solver.
Abstract（参考訳）: 大規模言語モデル(LLM)は、プログラム合成の領域における印象的な機能を示している。しかし、このレベルのパフォーマンスは全てのタスク、全てのLLM、全てのプロンプトスタイルで普遍的ではない。 1つの LLM が支配的であり、1つのプロンプトスタイルが支配的であり、シンボルソルバの呼び出しが LLM よりもよい選択である領域が多数存在する。ユーザにとって重要な課題は、LLMが正しい解法の選択である場合だけでなく、与えられた合成タスクを呼び出すのに適したLLMが、それを呼び出す正しい方法であるかどうかを特定することである。間違った選択をする非専門家のユーザは、商用APIを通じてクローズドソース言語モデルを使用する場合、結果(解決したタスクの数と解決に要する時間)と金銭の両方のコストを発生させる。私たちはこの選択をオンライン学習の問題と捉えています。我々は,与えられた報酬関数(解法時間,合成タスク数,解法費用)を最大化するために,マルチアームバンディットアルゴリズムを用いて,どのシンボルソルバ(LLM)を選択し,組み合わせを迅速に展開する。本稿では, CYANEAと呼ばれるこのアプローチのインスタンスを実装し, ランキング関数合成における文献からの合成クエリ, 構文誘導合成コンペ, SMT問題から生成した新鮮で未知のクエリについて評価する。 CYANEAは、最高のシングルソルバよりも37.2%多くのクエリを解決し、仮想ベストソルバの4%で結果を得る。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
LLM-Guided Compositional Program Synthesis [16.867355177975387]
大規模言語モデル(LLM)は、異なるターゲット言語でコードを生成することによってPBEタスクを解く能力を持つが、予測不能に失敗する可能性がある。そこで本研究では,LLMのためのシンプルなサブタスクを構築することで,障害から回復する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-12T00:36:43Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs [20.793892860721712]
MetaLLMは,各クエリを最適大言語モデル(LLM)に動的かつインテリジェントにルーティングするフレームワークである。多武装バンディットとして選択問題をフレーミングすることで、MetaLLMは不確実性の下で予測精度とコスト効率のバランスをとる。 OpenAI や Together AI などの一般的な LLM プラットフォーム上で実施した実験では,現実世界のシナリオにおいて MetaLLM の有効性を示す。
論文参考訳（メタデータ） (2024-07-15T15:45:07Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)
Can Large Language Models Play Games? A Case Study of A Self-Play Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。 Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文参考訳（メタデータ） (2024-03-08T19:16:29Z)
Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems [76.69936664916061]
LM呼び出し回数がVotteとFilter-Voteのパフォーマンスに与える影響について検討する。意外なことに、複数の言語タスクにおいて、VoteとFilter-Voteの両方のパフォーマンスは、まず増大するが、LM呼び出しの回数の関数として減少する可能性がある。
論文参考訳（メタデータ） (2024-03-04T19:12:48Z)
All Language Models Large and Small [4.676589803026312]
多くの主要な言語モデル(LM)は、訓練と実行の両方で高強度の計算資源を使用する。これは、デプロイメントのリソースコストを削減し、意思決定タスクの実行を高速化するという課題を引き起こします。本稿では,Language Optimising Network Distribution (LONDI) フレームワークという新しいLMフレームワークを紹介する。
論文参考訳（メタデータ） (2024-02-19T11:28:20Z)
DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。 2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文参考訳（メタデータ） (2024-02-19T07:38:57Z)
Solving Math Word Problem with Problem Type Classification [12.700472956406005]
数学語問題(MWP)は、解を導出するためにテキスト記述を分析し、数学的方程式を生成する必要がある。既存の研究は、木ベースの解法と大規模言語モデル(LLM)の2種類の解法でMWPを解くことに重点を置いている。本稿では,MWP解決能力の向上に複数のアンサンブル手法を用いる。
論文参考訳（メタデータ） (2023-08-26T10:35:16Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
LLM+P: Empowering Large Language Models with Optimal Planning Proficiency [46.20085545432116]
大規模言語モデル(LLM)は、目覚ましいゼロショットの一般化能力を示している。古典的なプランナーは、一度形式化された方法で問題が与えられると、効率的な検索アルゴリズムを使って、正しい、あるいは最適なプランを素早く特定できる。本稿では,従来のプランナーの強みを LLM に組み込んだ最初のフレームワークである LLM+P を紹介する。
論文参考訳（メタデータ） (2023-04-22T20:34:03Z)
Leveraging Large Language Models for Multiple Choice Question Answering [6.198523595657983]
MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。 MCSB能力が高いモデルは、従来のアプローチよりも自然なアプローチの方がはるかに優れていることを示す。
論文参考訳（メタデータ） (2022-10-22T05:04:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。