論文の概要: Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning
- arxiv url: http://arxiv.org/abs/2510.04081v1
- Date: Sun, 05 Oct 2025 07:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.445543
- Title: Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning
- Title(参考訳): モデル推論のためのコードアシスト型チェーンと命令のスケーリング
- Authors: Honglin Lin, Qizhi Pei, Xin Gao, Zhuoshi Pan, Yu Li, Juntao Li, Conghui He, Lijun Wu,
- Abstract要約: Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
- 参考スコア(独自算出の注目度): 65.20602712957725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning capability is pivotal for Large Language Models (LLMs) to solve complex tasks, yet achieving reliable and scalable reasoning remains challenging. While Chain-of-Thought (CoT) prompting has become a mainstream approach, existing methods often suffer from uncontrolled generation, insufficient quality, and limited diversity in reasoning paths. Recent efforts leverage code to enhance CoT by grounding reasoning in executable steps, but such methods are typically constrained to predefined mathematical problems, hindering scalability and generalizability. In this work, we propose Caco (Code-Assisted Chain-of-ThOught), a novel framework that automates the synthesis of high-quality, verifiable, and diverse instruction-CoT reasoning data through code-driven augmentation. Unlike prior work, Caco first fine-tunes a code-based CoT generator on existing math and programming solutions in a unified code format, then scales the data generation to a large amount of diverse reasoning traces. Crucially, we introduce automated validation via code execution and rule-based filtering to ensure logical correctness and structural diversity, followed by reverse-engineering filtered outputs into natural language instructions and language CoTs to enrich task adaptability. This closed-loop process enables fully automated, scalable synthesis of reasoning data with guaranteed executability. Experiments on our created Caco-1.3M dataset demonstrate that Caco-trained models achieve strong competitive performance on mathematical reasoning benchmarks, outperforming existing strong baselines. Further analysis reveals that Caco's code-anchored verification and instruction diversity contribute to superior generalization across unseen tasks. Our work establishes a paradigm for building self-sustaining, trustworthy reasoning systems without human intervention.
- Abstract(参考訳): 推論能力は、複雑なタスクを解決するために、LLM(Large Language Models)にとって重要なものだが、信頼性とスケーラブルな推論を実現することは依然として難しい。
CoT(Chain-of-Thought)の推進は主流のアプローチとなっているが、既存の手法は制御不能な生成、品質の不足、推論経路の多様性の制限に悩まされることが多い。
近年の取り組みは、実行可能ステップでの推論を基礎にすることでCoTを強化するコードを活用するが、そのような手法は通常、事前定義された数学的問題に制約され、拡張性と一般化性を妨げる。
本研究では,コード駆動強化による高品質,検証可能,多種多様な命令-CoT推論データの合成を自動化する新しいフレームワークであるCaco (Code-Assisted Chain-of-ThOught)を提案する。
以前の作業とは異なり、Cacoは既存の数学とプログラミングのソリューションを統一したコード形式でコードベースのCoTジェネレータを微調整し、データ生成を大量の多様な推論トレースにスケールする。
重要なことは、コード実行とルールベースのフィルタリングによる自動検証を導入し、論理的正しさと構造的多様性を保証し、続いて自然言語命令と言語CoTにフィルタ出力をリバースエンジニアリングしてタスク適応性を向上する。
このクローズドループプロセスは、完全に自動化され、保証された実行可能性を備えた推論データのスケーラブルな合成を可能にする。
作成したCaco-1.3Mデータセットの実験により、Caco訓練モデルが数学的推論ベンチマークにおいて強力な競争性能を示し、既存の強力なベースラインを上回った。
さらなる分析により、コーコの符号付き検証と命令の多様性は、目に見えないタスクをまたがるより優れた一般化に寄与することが明らかとなった。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
関連論文リスト
- Code Execution as Grounded Supervision for LLM Reasoning [36.97199200274124]
チェーン・オブ・ソート(CoT)による大規模言語モデルのトレーニングは,推論能力の向上に有効であることが証明されている。
本稿では,プログラム実行の決定性を利用して,高品質なCoT監視データセットを生成するスケーラブルな手法を提案する。
提案手法では,コード実行から検証可能なステップバイステップの推論トレースを抽出し,それを自然言語のCoT推論に変換する。
論文 参考訳(メタデータ) (2025-06-12T04:36:57Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting [124.69672273754144]
CoT(Chain-of-Thought)のプロンプトにより,大規模言語モデル(LLM)の推論能力が向上する
既存のCoTアプローチは通常、単純な推論タスクに重点を置いており、結果として低品質で一貫性のないCoTプロンプトをもたらす。
優れたCoTプロンプトの自動生成のための新しいフレームワークであるCoTGeniusを紹介する。
論文 参考訳(メタデータ) (2024-03-21T11:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。