論文の概要: Probabilistic Programs of Thought
- arxiv url: http://arxiv.org/abs/2604.17290v1
- Date: Sun, 19 Apr 2026 07:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.441304
- Title: Probabilistic Programs of Thought
- Title(参考訳): 思考の確率論的プログラム
- Authors: Poorva Garg, Renato Lui Geh, Daniel Israel, Todd Millstein, Kyle Richardson, Guy Van den Broeck,
- Abstract要約: LLMはコード生成や数学的推論に広く使われている。
本稿では,確率論的思考プログラムをダブする新しいテストタイムフレームワークを提案する。
当社のアプローチでは,GPU計算を必要とせず,CPUオーバーヘッドも少なく,新たなプログラムをサンプリングすることが可能です。
- 参考スコア(独自算出の注目度): 27.67332170827831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are widely used for code generation and mathematical reasoning tasks where they are required to generate structured output. They either need to reason about code, generate code for a given specification, or reason using programs of thought. The typical approach to code generation is to prompt the model and generate samples until an appropriate program is obtained. Within this process, sampling $n$ programs from the language model requires $n$ GPU compute-intensive generations which becomes prohibitively expensive for larger values of $n$. In this work, we address this limitation by exposing the LLM's distribution within the generated programs themselves. We propose a novel test-time framework we dub probabilistic programs of thought to obtain more samples from the model with fewer LLM generations. Given a program generated by a model and the associated next-token probabilities, we build a probabilistic program that compactly represents exponentially many deterministic programs. Since performing probabilistic reasoning in this probabilistic program is much cheaper, our approach allows sampling new programs without any additional GPU compute and little CPU overhead. We instantiate our approach on benchmarks for code generation, code understanding and mathematical reasoning and report improvements in performance with fewer generations from the LLM.
- Abstract(参考訳): LLMは、構造化出力を生成するために必要なコード生成や数学的推論タスクに広く使用されている。
それらは、コードを推論したり、特定の仕様のためのコードを生成したり、思考プログラムを使って理由付けする必要がある。
コード生成の典型的なアプローチは、適切なプログラムが取得されるまでモデルを実行し、サンプルを生成することである。
このプロセスでは、言語モデルから$n$のプログラムをサンプリングするには、$n$のGPU計算集約世代が必要である。
本研究では,LLMの分布を生成プログラム自体に公開することにより,この制限に対処する。
我々は,LLM 世代が少ないモデルからより多くのサンプルを得ると考えられる確率的プログラムを探索する新しいテストタイムフレームワークを提案する。
モデルによって生成されたプログラムとそれに関連する次の確率が与えられた場合、指数関数的に多くの決定論的プログラムをコンパクトに表現する確率的プログラムを構築する。
この確率的プログラムにおける確率論的推論の実行は、はるかに安価であるため、我々のアプローチでは、GPU計算を必要とせず、CPUオーバーヘッドの少ない新しいプログラムをサンプリングすることができる。
コード生成、コード理解、数学的推論のベンチマークに対する我々のアプローチをインスタンス化し、LLMからより少ない世代で性能の改善を報告します。
関連論文リスト
- Localized Calibrated Uncertainty in Code Language Models [1.2733370160280995]
世代がユーザの意図と不一致する可能性のある場所をローカライズするための技術を提供します。
我々は,コードのどの部分が最小限のパッチで編集されるかを示すために,様々なテクニックが適切に校正された確率を割り振ることができるかを測定する。
最小限のスーパーバイザーモデルを用いたプローブは低いキャリブレーション誤差を達成でき、ブリアスキルスコアは数桁のモデルで生成されたコードに対して0.2の編集線を推定する。
論文 参考訳(メタデータ) (2025-12-31T02:00:17Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Provable Scaling Laws for the Test-Time Compute of Large Language Models [84.00141420901038]
本研究では,大規模言語モデルのテスト時間計算において,証明可能なスケーリング法則を享受する2つのアルゴリズムを提案する。
1つは2段階ノックアウト方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
もう1つは2段階のリーグ方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
論文 参考訳(メタデータ) (2024-11-29T05:29:47Z) - Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。
すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。
我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文 参考訳(メタデータ) (2024-05-25T19:40:50Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。