Fugu-MT 論文翻訳(概要): Verified Multi-Step Synthesis using Large Language Models and Monte Carlo Tree Search

論文の概要: Verified Multi-Step Synthesis using Large Language Models and Monte Carlo Tree Search

arxiv url: http://arxiv.org/abs/2402.08147v1
Date: Tue, 13 Feb 2024 00:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 16:53:47.379390
Title: Verified Multi-Step Synthesis using Large Language Models and Monte Carlo Tree Search
Title（参考訳）: 大規模言語モデルとモンテカルロ木探索を用いたマルチステップ合成の検証
Authors: David Brandfonbrener, Sibi Raja, Tarun Prasad, Chloe Loughridge, Jianang Yang, Simon Henniger, William E. Byrd, Robert Zinkov, Nada Amin
Abstract要約: 本稿では,モンテカルロ木探索(MCTS)を用いて大規模言語モデル(LLM)を誘導し,Dafny,Lean,Coqの検証プログラムを生成する手法を提案する。提案手法はVMCTSと呼ばれ,各ステップで部分的なプログラムをチェックすることにより,探索アルゴリズム内の検証手法を活用する。検証済みの5つの問題に対して,VMCTSでは,1時間で再サンプリングした場合でも,基本モデルでは解けない4つの問題に対して,VMCTSは6分以内で解けることがわかった。
参考スコア（独自算出の注目度）: 5.549780624637388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an approach using Monte Carlo Tree Search (MCTS) to guide Large Language Models (LLMs) to generate verified programs in Dafny, Lean and Coq. Our method, which we call VMCTS, leverages the verifier inside the search algorithm by checking partial programs at each step. In combination with the LLM prior, the verifier feedback raises the synthesis capabilities of open source models. On a set of five verified programming problems, we find that in four problems where the base model cannot solve the question even when re-sampling solutions for one hour, VMCTS can solve the problems within 6 minutes. The base model with VMCTS is even competitive with ChatGPT4 augmented with plugins and multiple re-tries on these problems. Our code and benchmarks are available at https://github.com/namin/llm-verified-with-monte-carlo-tree-search .
Abstract（参考訳）: 本稿では,モンテカルロ木探索(MCTS)を用いて大規模言語モデル(LLM)を誘導し,Dafny,Lean,Coqの検証プログラムを生成する手法を提案する。提案手法はvmctsと呼ばれ,各ステップで部分プログラムをチェックすることにより,探索アルゴリズム内の検証器を活用する。 llmの事前設定と組み合わせることで、検証者のフィードバックはオープンソースモデルの合成能力を高める。 5つの検証済みプログラミング問題の組において、ベースモデルが1時間ソリューションを再サンプリングしても問題を解くことができない4つの問題において、vmctは6分以内に問題を解決できることがわかった。 VMCTSのベースモデルは、これらの問題に対するプラグインと複数の再試行を備えたChatGPT4と競合する。私たちのコードとベンチマークは、https://github.com/namin/llm-verified-with-monte-carlo-tree-searchで利用可能です。

関連論文リスト

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
LLM-ERM: Sample-Efficient Program Learning via LLM-Guided Search [23.97383442759484]
LLM-ERM は、全列挙を LLM 誘導探索に置き換える提案と検証のフレームワークである。コーディネート的にオンラインのミニバッチSGDは,特定のショートプログラムを学習するために多くのサンプルを必要とすることを示す。これらの結果は,言語誘導型プログラム合成が有限クラスEMMの統計効率の多くを回復することを示している。
論文参考訳（メタデータ） (2025-10-16T06:10:11Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
CETBench: A Novel Dataset constructed via Transformations over Programs for Benchmarking LLMs for Code-Equivalence Checking [18.036870409436137]
CETBench - プログラムのリポジトリを通して構築された変換ベンチマークによるコード等価性を示す。データセットの各インスタンスは、リポジトリにプログラムのペアを取り、ランダムに定義されたコード変換を適用して取得します。解析の結果,基礎となるプログラムの組における非常に単純なコード変換がSOTA LLMの性能を著しく低下させる可能性が示唆された。
論文参考訳（メタデータ） (2025-06-04T14:47:14Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search [10.718560472954644]
イントロスペクティブモンテカルロ木探索(Introspective Monte Carlo Tree Search, I-MCTS)は、イントロスペクティブプロセスを通じてツリーノードを反復的に拡張する新しいアプローチである。我々は,各ノードの解の直接評価を容易にするために,LLM(Large Language Model)ベースの値モデルを統合する。当社のアプローチでは,強力なオープンソースAutoMLエージェントと比較して,パフォーマンスが6%向上している。
論文参考訳（メタデータ） (2025-02-20T16:19:09Z)
Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文参考訳（メタデータ） (2025-02-16T16:12:01Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文参考訳（メタデータ） (2024-06-11T00:40:17Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Recursive Speculative Decoding: Accelerating LLM Inference via Sampling Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。近年の作業では、草稿の伐採によってこの方法が進歩している。再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文参考訳（メタデータ） (2024-02-21T22:57:49Z)
Which Syntactic Capabilities Are Statistically Learned by Masked Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文参考訳（メタデータ） (2024-01-03T02:44:02Z)
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-10-16T05:09:58Z)
Sequential Monte Carlo Steering of Large Language Models using Probabilistic Programs [46.721838623748816]
本研究では,大規模言語モデルの出力に対する構文的制約と意味的制約を強制する新しい推論時手法を提案する。主要なアイデアは、言語生成タスクを離散確率列モデルのクラスにおける後部推論問題として指定することである。ビームサーチと同様の計算コストのために、SMCは多様なタスクを解決するためにLSMを操ることができる。
論文参考訳（メタデータ） (2023-06-05T17:55:05Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)
ALGO: Synthesizing Algorithmic Programs with LLM-Generated Oracle Verifiers [60.6418431624873]
大きな言語モデル(LLM)は、機能記述からコードを実装するのに優れているが、アルゴリズムの問題に悩まされている。我々は,アルゴリズムプログラムを LLM 生成 Oracle で合成するフレームワーク ALGO を提案し,その生成をガイドし,その正確性を検証する。実験の結果,ALGOを装着すると,Codexモデルよりも8倍,CodeTよりも2.6倍の1サブミッションパス率が得られることがわかった。
論文参考訳（メタデータ） (2023-05-24T00:10:15Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。