論文の概要: Evaluating Prompting and Execution-Based Methods for Deterministic Computation in LLMs
- arxiv url: http://arxiv.org/abs/2605.03227v2
- Date: Thu, 07 May 2026 05:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:06.061681
- Title: Evaluating Prompting and Execution-Based Methods for Deterministic Computation in LLMs
- Title(参考訳): LLMにおける決定論的計算のためのプロンプト法と実行法の評価
- Authors: Hongkun Yu,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と推論において強力な能力を示している。
CoT(Chain-of-Thought)、Last-to-Most(Least-to-Most)、Program-of-Thought(PoT)、Self-Consistency(SC)など、複数のプロンプト戦略を体系的に評価する。
提案手法は, 逐次的タスクにおいて, 適度な精度しか達成できないことを示す。
- 参考スコア(独自算出の注目度): 1.2957535240267326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in natural language understanding and reasoning. However, their ability to perform exact, deterministic computation remains unclear. In this work, we systematically evaluate multiple prompting strategies, including Chain-of-Thought (CoT), Least-to-Most decomposition, Program-of-Thought (PoT), and Self-Consistency (SC), on tasks requiring precise and error-free outputs, including binary counting, longest substring detection, and arithmetic evaluation. To support this study, we introduce a synthetic dataset with diverse natural language instructions, enabling controlled evaluation of exact computation across multiple task types. Our results show that standard prompting methods achieve only moderate accuracy on sequence-based tasks. CoT provides limited improvement, while Least-to-Most suffers from error accumulation. In contrast, PoT achieves perfect accuracy by generating executable code and delegating computation to an external interpreter. Self-Consistency improves robustness through majority voting, but incurs substantial computational overhead. We further train a small domain-specific model (CodeT5-small) to generate executable programs, which achieves perfect accuracy on held-out synthetic test data across all tasks with minimal training cost. Overall, our findings suggest that LLMs may simulate reasoning patterns rather than reliably perform exact symbolic computation. For deterministic tasks, combining LLMs with external tools or using specialized models provides a more reliable and efficient solution.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と推論において強力な能力を示している。
しかし、正確な決定論的計算を行う能力は未だ不明である。
本研究では,2進数,最長サブストリング検出,算術的評価など,正確かつ誤りのない出力を必要とするタスクに対して,Chain-of-Thought(CoT),Least-to-Most decomposition(PoT),Program-of-Thought(PoT),Self-Consistency(SC)などの複数のプロンプト戦略を体系的に評価する。
本研究を支援するために,多種多様な自然言語命令を用いた合成データセットを導入し,複数のタスクタイプにまたがる正確な計算の制御を可能にした。
提案手法は, 逐次的タスクにおいて, 適度な精度しか達成できないことを示す。
CoTは限定的な改善を提供するが、Least-to-Mostはエラーの蓄積に悩まされる。
対照的にPoTは、実行可能コードを生成し、計算を外部インタプリタに委譲することで、完全な精度を達成する。
自己整合性は多数決によって堅牢性を改善するが、かなりの計算オーバーヘッドを引き起こす。
さらに、小さなドメイン固有モデル(CodeT5-small)をトレーニングして実行可能プログラムを生成する。
以上の結果から,LLMは正確な記号計算を確実に行うのではなく,推論パターンをシミュレートする可能性が示唆された。
決定論的タスクでは、LCMを外部ツールと組み合わせたり、特別なモデルを使ったりすることで、より信頼性が高く効率的なソリューションを提供する。
関連論文リスト
- Evaluating the Formal Reasoning Capabilities of Large Language Models through Chomsky Hierarchy [62.32144504442516]
SOTA LLMが形式言語の構造的・階層的複雑性を把握できるかどうかは不明である。
ChomskyBench はchomsky Hierarchy のレンズを通して LLM を体系的に評価するためのベンチマークである。
ChomskyBenchは、各レベルで機能をテストするように設計された、言語認識と生成タスクの包括的なスイートで構成されている。
論文 参考訳(メタデータ) (2026-04-03T04:06:39Z) - Program Semantic Inequivalence Game with Large Language Models [20.43560028315856]
大きな言語モデル(LLM)は、日々のコーディングタスクにおいて強力なパフォーマンスを達成することができるが、プログラムのセマンティクスに関する非自明な推論を必要とする複雑なタスクでは失敗する可能性がある。
本研究では,意味的不等価ゲームSInQに基づいて,コード推論学習データを合成的に生成する手法について検討する。
この設定により、無限の計算資源の限界における自己再生による理論的に無制限な改善が可能であることを証明した。
論文 参考訳(メタデータ) (2025-05-02T20:03:35Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Code Simulation as a Proxy for High-order Tasks in Large Language Models [6.71786454125056]
我々は、Large Language Models (LLM) の能力を評価するために、自然主義的および合成的推論タスクのペアを収集する。
我々は、プログラミングにおける共通構造を、自然主義的推論タスクの構成要素の1つとして活用する。
我々の貢献は、手作りの人間注記問題に対するスケーラブルな補完として、LLMの推論能力を総合的にテストすることの上に成り立っている。
論文 参考訳(メタデータ) (2025-02-05T19:30:28Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。