論文の概要: Code Execution as Grounded Supervision for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.10343v1
- Date: Thu, 12 Jun 2025 04:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.570411
- Title: Code Execution as Grounded Supervision for LLM Reasoning
- Title(参考訳): LLM推論のためのグラウンドド・スーパービジョンとしてのコード実行
- Authors: Dongwon Jung, Wenxuan Zhou, Muhao Chen,
- Abstract要約: チェーン・オブ・ソート(CoT)による大規模言語モデルのトレーニングは,推論能力の向上に有効であることが証明されている。
本稿では,プログラム実行の決定性を利用して,高品質なCoT監視データセットを生成するスケーラブルな手法を提案する。
提案手法では,コード実行から検証可能なステップバイステップの推論トレースを抽出し,それを自然言語のCoT推論に変換する。
- 参考スコア(独自算出の注目度): 36.97199200274124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) with chain-of-thought (CoT) supervision has proven effective for enhancing their reasoning abilities. However, obtaining reliable and accurate reasoning supervision remains a significant challenge. We propose a scalable method for generating a high-quality CoT supervision dataset by leveraging the determinism of program execution. Unlike existing reasoning dataset generation methods that rely on costly human annotations or error-prone LLM-generated CoT, our approach extracts verifiable, step-by-step reasoning traces from code execution and transforms them into a natural language CoT reasoning. Experiments on reasoning benchmarks across various domains show that our method effectively equips LLMs with transferable reasoning abilities across diverse tasks. Furthermore, the ablation studies validate that our method produces highly accurate reasoning data and reduces overall token length during inference by reducing meaningless repetition and overthinking.
- Abstract(参考訳): 大規模言語モデル (LLM) をチェーン・オブ・思想 (CoT) で訓練することは, 推論能力の向上に有効であることが証明された。
しかし、信頼性と正確な推論の監督を得ることは依然として大きな課題である。
本稿では,プログラム実行の決定性を利用して,高品質なCoT監視データセットを生成するスケーラブルな手法を提案する。
コストのかかる人的アノテーションやLLM生成のCoTに依存する既存の推論データセット生成方法とは異なり,コード実行から検証可能なステップバイステップの推論トレースを抽出し,それを自然言語のCoT推論に変換する。
様々な領域にわたる推論ベンチマーク実験により,本手法は多種多様なタスクにまたがる伝達可能な推論能力を有するLLMを効果的に装備することを示した。
さらに,本手法が高精度な推論データを生成し,無意味な反復や過度な再考を減らし,推論中のトークン長を低減できることを示す。
関連論文リスト
- Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける情報ゲインの定量化を行い、障害モードの識別を可能にする。
提案手法の有効性を,玩具およびGSM-8Kデータに対する広範囲な実験により実証し,既存の結果に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [10.421832675327712]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。