論文の概要: MiCoTA: Bridging the Learnability Gap with Intermediate CoT and Teacher Assistants
- arxiv url: http://arxiv.org/abs/2507.01887v1
- Date: Wed, 02 Jul 2025 16:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.387498
- Title: MiCoTA: Bridging the Learnability Gap with Intermediate CoT and Teacher Assistants
- Title(参考訳): MiCoTA: 中間的CoTと教師アシスタントによる学習可能性ギャップのブリッジ
- Authors: Dongyi Ding, Tiannan Wang, Chenghao Zhu, Meiling Tao, Yuchen Eleanor Jiang, Wangchunshu Zhou,
- Abstract要約: textbfMid-textbfCoT textbfTeacher textbfAssistant Distillation (MiCoTAl)を紹介する。
MiCoTAlは、小型言語モデル(SLM)のための長いCoT蒸留を改善するためのフレームワークである
- 参考スコア(独自算出の注目度): 25.45861816665351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at reasoning tasks requiring long thought sequences for planning, reflection, and refinement. However, their substantial model size and high computational demands are impractical for widespread deployment. Yet, small language models (SLMs) often struggle to learn long-form CoT reasoning due to their limited capacity, a phenomenon we refer to as the "SLMs Learnability Gap". To address this, we introduce \textbf{Mi}d-\textbf{Co}T \textbf{T}eacher \textbf{A}ssistant Distillation (MiCoTAl), a framework for improving long CoT distillation for SLMs. MiCoTA employs intermediate-sized models as teacher assistants and utilizes intermediate-length CoT sequences to bridge both the capacity and reasoning length gaps. Our experiments on downstream tasks demonstrate that although SLMs distilled from large teachers can perform poorly, by applying MiCoTA, they achieve significant improvements in reasoning performance. Specifically, Qwen2.5-7B-Instruct and Qwen2.5-3B-Instruct achieve an improvement of 3.47 and 3.93 respectively on average score on AIME2024, AMC, Olympiad, MATH-500 and GSM8K benchmarks. To better understand the mechanism behind MiCoTA, we perform a quantitative experiment demonstrating that our method produces data more closely aligned with base SLM distributions. Our insights pave the way for future research into long-CoT data distillation for SLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、計画、リフレクション、洗練のために長い思考シーケンスを必要とするタスクの推論に優れる。
しかし、その相当なモデルサイズと高い計算要求は、広く展開するには実用的ではない。
しかし,小型言語モデル(SLM)は,限られた能力のため,長文CoT推論の学習に苦慮することが多く,これは「SLMs Learnability Gap」と呼ばれる現象である。
これを解決するために, SLM の長い CoT 蒸留を改善するフレームワークである \textbf{Mi}d-\textbf{Co}T \textbf{T}eacher \textbf{A}ssistant Distillation (MiCoTAl) を導入する。
MiCoTAは、中間サイズのモデルを教師アシスタントとして使用し、中間長のCoTシーケンスを使用して、キャパシティと推論長のギャップをブリッジする。
ダウンストリームタスクにおける実験により,大規模な教師から抽出したSLMは,MiCoTAを適用して性能を低下させることができたが,推理性能は著しく向上した。
具体的には、Qwen2.5-7B-InstructとQwen2.5-3B-Instructは、AIME2024、AMC、Olympiad、MATH-500、GSM8Kベンチマークの平均スコアでそれぞれ3.47と3.93の改善を達成した。
MiCoTAの背後にあるメカニズムをよりよく理解するために,本手法がベースSLM分布とより密に一致したデータを生成することを示す定量的実験を行った。
SLMの長期CoTデータ蒸留に関する今後の研究の道を開く。
関連論文リスト
- Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - MA-LoT: Model-Collaboration Lean-based Long Chain-of-Thought Reasoning enhances Formal Theorem Proving [30.112351299773632]
この問題を解決するために,我々はLean4定理の包括的なフレームワークを提案する。
一般的なNLの認識タスクを完全防御生成と証明修正のための誤り解析に分離する。
我々のフレームワークは、MiniF2F-TestデータセットのLean4バージョンにおいて**61.07%*の精度を達成する。
論文 参考訳(メタデータ) (2025-03-05T05:50:31Z) - Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。
次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - Unveiling the Key Factors for Distilling Chain-of-Thought Reasoning [33.02060729778806]
小型言語モデル(SLM)におけるCoT蒸留の影響要因について検討した。
その結果, SLM は粒度と非単調な関係を示し, より微細な推論とより弱いモデルにより, より単純なCoT 監督下でより優れた性能を示すことがわかった。
これらの知見は、特定の学生モデルにCoT戦略を適合させることの必要性を強調し、SLMにおけるCoT蒸留を最適化するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-25T09:08:45Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。
数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文 参考訳(メタデータ) (2023-11-15T01:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。