論文の概要: Reasoning Scaffolding: Distilling the Flow of Thought from LLMs
- arxiv url: http://arxiv.org/abs/2509.23619v2
- Date: Wed, 01 Oct 2025 08:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.807364
- Title: Reasoning Scaffolding: Distilling the Flow of Thought from LLMs
- Title(参考訳): LLMによる思考の流れの蒸留
- Authors: Xiangyu Wen, Junhua Huang, Zeju Li, Min Li, Jianyuan Zhong, Zhijian Xu, Mingxuan Yuan, Yongxiang Huang, Qiang Xu,
- Abstract要約: 我々は、推論を構造化生成プロセスとして再編成するフレームワークであるReasoning Scaffoldingを紹介します。
本手法は, 精度と論理的整合性の両方において, 最先端の蒸留法よりも優れていた。
- 参考スコア(独自算出の注目度): 30.569464420145163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevailing approach to distilling reasoning from Large Language Models (LLMs)-behavioral cloning from textual rationales-is fundamentally limited. It teaches Small Language Models (SLMs) to mimic surface-level patterns rather than the underlying algorithmic structure of thought, resulting in a critical lack of logical robustness. We argue that instead of cloning text, distillation should transfer this algorithmic structure directly. We introduce Reasoning Scaffolding}, a framework that reframes reasoning as a structured generation process. Our method first abstracts the teacher's thought process into a sequence of discrete, interpretable semantic signals (e.g., Contrast, Addition) that act as a scaffold. The student model is then trained via a multi-task objective to both (1)predict the next semantic signal, anticipating the reasoning flow, and (2)generate the corresponding step, conditioned on that signal. This multi-task scheme acts as a powerful regularizer, compelling the student to internalize the computational patterns of coherent reasoning. On a suite of challenging reasoning benchmarks, our method significantly outperforms state-of-the-art distillation in both accuracy and logical consistency, providing a path towards creating smaller models that are genuine reasoners, not just fluent mimics.
- Abstract(参考訳): 大規模言語モデル (LLMs) からの蒸留における一般的なアプローチは, 文章的論理からの行動的クローニングであり, 基本的に限定的である。
SLM(Small Language Models)は、思考のアルゴリズム構造ではなく、表面レベルのパターンを模倣するように教え、論理的堅牢性の欠如をもたらす。
我々は、テキストをクローンする代わりに、蒸留がこのアルゴリズム構造を直接転送すべきだと論じる。
我々は、推論を構造化生成プロセスとして再編成するフレームワークであるReasoning Scaffolding}を紹介する。
提案手法はまず,教師の思考過程を,足場として機能する個別な意味信号(例えば,コントラスト,付加)のシーケンスに抽象化する。
学生モデルは、(1)次の意味的信号を予測し、推論フローを予測し、(2)その信号に条件付けられた対応するステップを生成するために、マルチタスクの目的を通して訓練される。
このマルチタスクスキームは強力な正規化器として機能し、生徒にコヒーレント推論の計算パターンを内部化するよう促す。
難解な推理ベンチマークの組において、我々の手法は精度と論理的整合性の両方において最先端の蒸留法を著しく上回り、単に流動的な模倣ではなく真の推論子であるより小さなモデルを作成するための道筋を提供する。
関連論文リスト
- Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning [10.186434946738201]
大規模言語モデル(LLM)は、アルゴリズムコーディングや数学的問題解決といったタスクにおいて顕著な推論能力を示す。
近年の手法では,強化学習と教師付き微調整を組み合わせた多段階学習による推論が改良されている。
論文 参考訳(メタデータ) (2025-08-13T15:32:25Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Distilling Reasoning Ability from Large Language Models with Adaptive Thinking [54.047761094420174]
思考の微調整(cot-finetuning)の連鎖は、小さな言語モデル(SLM)を特定のタスクに対するパフォーマンス向上の推論能力で実現することを目的としている。
既存のコトファインタニング法の多くは事前に考えられたメカニズムを採用しており、SLMは答えを出す前に理性を生成することができる。
このメカニズムにより、SLMは複雑な質問を分析して考えることができるが、答えの正しさは論理的に小さな誤りに非常に敏感になる。
理性よりも先に回答を生成するための頑健な後思考機構を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:19:27Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [10.421832675327712]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。
CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。
本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文 参考訳(メタデータ) (2023-06-06T17:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。