論文の概要: Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales
- arxiv url: http://arxiv.org/abs/2509.23574v1
- Date: Sun, 28 Sep 2025 02:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.29946
- Title: Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales
- Title(参考訳): CoTの高効率蒸留に向けて:低合理化による自己ガイド型Rationale Selectorの高性能化
- Authors: Jianzhi Yan, Le Liu, Youcheng Pan, Shiwei Chen, Yang Xiang, Buzhou Tang,
- Abstract要約: チェイン・オブ・シント(CoT)蒸留は, より大規模な教師モデルから多段階の推論能力を伝達することにより, 小型言語モデル(SLM)推論を強化することを目的としている。
既存の作業は、主にデータ量に焦点を当てた合理的な品質を過小評価しており、ノイズや誤った情報を学生モデルに転送することができる。
textbfModel-textbfOriented textbfRationale textbfSelection textbfDistillation (MoRSD)を提案する。
- 参考スコア(独自算出の注目度): 21.91556878201084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) distillation aims to enhance small language models' (SLMs) reasoning by transferring multi-step reasoning capability from the larger teacher models. However, existing work underestimates rationale quality, focusing primarily on data quantity, which may transfer noisy or incorrect information to the student model. To address the above issues, we proposed \textbf{M}odel-\textbf{O}riented \textbf{R}ationale \textbf{S}election \textbf{D}istillation (MoRSD), which can discern and select high quality rationales for distillation to improve performance further. We further propose a Rationale Difficulty (RD) metric to measure the ability of the student model to generate the correct answer under a given rationale. Compared to the baseline, we achieved 4.6$\%$ average improvement on seven datasets over three tasks, using fewer rationales by controlling their accuracy, diversity, and difficulty. Our results reveal that a small portion of the high quality rationales can enhance the reasoning ability of student models than the entire dataset. Our method promises to be a possible solution for efficient CoT distillation. Our code will be released in https://github.com/Leon221220/MoRSD.
- Abstract(参考訳): チェイン・オブ・シント(CoT)蒸留は, より大規模な教師モデルから多段階の推論能力を伝達することにより, 小型言語モデル(SLM)推論を強化することを目的としている。
しかし、既存の研究は、主にデータ量に焦点を当てた合理的な品質を過小評価しており、ノイズや誤った情報を学生モデルに転送することができる。
以上の問題に対処するため,蒸留における高品質な理論的根拠を識別・選択し,さらなる性能向上を図ることを目的とした, \textbf{M}odel-\textbf{O}riented \textbf{R}ationale \textbf{S}election \textbf{D}istillation (MoRSD)を提案した。
さらに,Rationale Difficulty(RD)尺度を提案し,与えられた論理の下で正しい解を生成する学生モデルの能力を測定する。
ベースラインと比較すると,3つのタスクに対する7つのデータセットの平均改善率は4.6$\%であった。
結果から,高品質な理性理論のごく一部は,データセット全体よりも学生モデルの推論能力を高めることができることがわかった。
提案手法は, 効率の良いCoT蒸留方法として期待できる。
私たちのコードはhttps://github.com/Leon221220/MoRSDでリリースされます。
関連論文リスト
- Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation [37.38634940034755]
本稿では,チェーン・オブ・ソート(CoT)蒸留におけるデータ操作を調査する最初のデータ中心型ベンチマークであるDC-CoTを紹介する。
我々は、これらのデータ操作が複数の推論データセットの学生モデル性能に与える影響を厳格に評価する。
論文 参考訳(メタデータ) (2025-05-24T15:54:19Z) - OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。
私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文 参考訳(メタデータ) (2025-04-02T17:50:31Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z) - PaD: Program-aided Distillation Can Teach Small Models Reasoning Better than Chain-of-thought Fine-tuning [20.59775450213501]
本稿では, 蒸留データの誤りを抑えるための推論プログラムを導入したPaD(Program-Aided Distillation)を提案する。
算術的推論,記号的推論,一般能力に基づいてPaDを評価する。
論文 参考訳(メタデータ) (2023-05-23T10:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。