論文の概要: Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO
- arxiv url: http://arxiv.org/abs/2602.17686v1
- Date: Thu, 05 Feb 2026 05:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.520009
- Title: Curriculum Learning for Efficient Chain-of-Thought Distillation via Structure-Aware Masking and GRPO
- Title(参考訳): 構造を考慮したマスキングとGRPOによる高効率結着蒸留のカリキュラム学習
- Authors: Bowen Yu, Maolin Wang, Sheng Zhang, Binhao Wang, Yi Wen, Jingtong Gao, Bowen Liu, Zimo Zhao, Wanyu Wang, Xiangyu Zhao,
- Abstract要約: 大規模言語モデルからコンパクトな学生モデルへ推論するCoT(Chain-of-Thought)の蒸留は、根本的な課題である。
既存のアプローチでは、推論を単一ステップに圧縮するか、CoTを価値あるものにする解釈性を失う。
本稿では,この能力のミスマッチに対処する3段階のカリキュラム学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.91321958525287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling Chain-of-Thought (CoT) reasoning from large language models into compact student models presents a fundamental challenge: teacher rationales are often too verbose for smaller models to faithfully reproduce. Existing approaches either compress reasoning into single-step, losing the interpretability that makes CoT valuable. We present a three-stage curriculum learning framework that addresses this capacity mismatch through progressive skill acquisition. First, we establish structural understanding via masked shuffled reconstruction. Second, we apply Group Relative Policy Optimization (GRPO) on masked completion tasks, enabling the model to discover its own balance between accuracy and brevity. Third, we identify persistent failure cases and guide the student to internalize teacher knowledge through targeted rewriting, again optimized with GRPO. Experiments on GSM8K demonstrate that our approach enables Qwen2.5-3B-Base to achieve an 11.29 percent accuracy improvement while reducing output length by 27.4 percent, surpassing both instruction-tuned variants and prior distillation methods.
- Abstract(参考訳): 大きな言語モデルからコンパクトな学生モデルに推論するCoT(Chain-of-Thought)を蒸留することは、根本的な課題である。
既存のアプローチでは、推論を単一ステップに圧縮するか、CoTを価値あるものにする解釈性を失う。
本稿では,この能力のミスマッチに対処する3段階のカリキュラム学習フレームワークを提案する。
まず,マスク付きシャッフル再構築による構造的理解を確立する。
第2に,グループ相対政策最適化(GRPO)をマスキング完了タスクに適用し,モデルが精度と簡潔さのバランスを見いだせるようにした。
第3に,持続的障害事例を同定し,GRPOで最適化された目標書き換えによる教師の知識の内在化を指導する。
GSM8Kの実験により,本手法によりQwen2.5-3Bベースでは,出力長を27.4%削減しつつ,11.29パーセントの精度向上を実現できた。
関連論文リスト
- On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。
実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-12T18:58:28Z) - Temper-Then-Tilt: Principled Unlearning for Generative Models through Tempering and Classifier Guidance [51.532841645285835]
本研究では,タスクを目標分布に対する密度比推定としてフレーミングすることで,大規模生成モデルにおける機械学習について検討する。
左折集合がシャープで集中したデータ分布を表す場合、有限サンプルで忠実に解けないことを示す。
本稿では,基本モデルを凍結し,二段階の推論手法を適用したTemper-Then-Tilt Unlearning(T3-Unlearning)を提案する。
論文 参考訳(メタデータ) (2026-02-10T19:08:40Z) - Endogenous Reprompting: Self-Evolving Cognitive Alignment for Unified Multimodal Models [23.128973540926552]
内因性再増殖は、モデルの理解を明確な生成的推論ステップに変換する。
評価精度,再現効率,生成品質において,SEERは一貫して最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:54:36Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Can an Easy-to-Hard Curriculum Make Reasoning Emerge in Small Language Models? Evidence from a Four-Stage Curriculum on GPT-2 [0.8423417997128777]
発達的に順序付けられたカリキュラムは、小言語モデルにおける透明性とサンプル効率を著しく改善することを示した。
最終回答の成功は、依然として従来のランニングを約30%遅れており、私たちのサリエンシ調査は、最も難しい段階で言語知識の頭を抱えています。
論文 参考訳(メタデータ) (2025-05-16T19:08:31Z) - Critique-Guided Distillation for Efficient and Robust Language Model Reasoning [4.8433206430407045]
専門家によるデモンストレーションで監督された微調整は、しばしば模倣問題に悩まされる。
教師が生成した説明的批判と洗練された反応でSFTを増強する多段階学習フレームワークであるCrytique-Guided Distillation (CGD)を提案する。
分析の結果,CGDは改良の不確実性を一貫して低減し,批判と反応の整合性を向上し,試料効率を向上することがわかった。
論文 参考訳(メタデータ) (2025-05-16T18:45:59Z) - Improving In-Context Learning with Reasoning Distillation [25.377625891065236]
言語モデルは、コンテキスト内での学習を実行するためにセマンティックな事前に依存する。
本稿では,言語モデルの帰納的推論能力の向上を目的とした推論蒸留手法であるReDisを提案する。
論文 参考訳(メタデータ) (2025-04-14T18:59:10Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Few-shot Relational Reasoning via Connection Subgraph Pretraining [81.30830261527231]
Connection Subgraph Reasoner (CSR) は、事前トレーニングを必要とせずに、ターゲットの少数ショットタスクを直接予測することができる。
私たちのフレームワークは、既存のメソッドに対して、目標とする数ショットタスクに対して、すでに競合的に実行可能です。
論文 参考訳(メタデータ) (2022-10-13T04:35:14Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。