論文の概要: In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
- arxiv url: http://arxiv.org/abs/2509.22230v1
- Date: Fri, 26 Sep 2025 11:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.400311
- Title: In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
- Title(参考訳): 小さめのモデルのために作られたレゾネーターは、レゾネーターをより良くする
- Authors: Jaehoon Kim, Kwangwook Seo, Dongha Lee,
- Abstract要約: より大きな言語モデルから小さな言語モデルへの推論能力の転送は、しばしば反故意に失敗する。
より大きなモデルからのトレースの推論は、学生の分布下では低い確率のトークンを含む。
本稿では,学生に優しい推論トレースを生成するメカニズムであるReverse Speculative Decoding (RSD)を提案する。
- 参考スコア(独自算出の注目度): 12.995634497832027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5\%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9\%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.
- Abstract(参考訳): より大きな言語モデルから教師付き微調整によるより小さな言語モデルへの推論能力の移譲は、高品質の教師のデモンストレーションへのアクセスにもかかわらずパフォーマンスが劣化するなど、意図せずに失敗することが多い。
より大きなモデルからのトレースの推論には、学生の分布下で低い確率のトークンが含まれており、より小さなアーキテクチャの内部表現能力を超え、補助的なガイダンスではなく学習障壁を形成している。
本稿では,教師モデルが候補トークンを提案する学習者フレンドリな推論トレースを生成するメカニズムであるReverse Speculative Decoding(RSD)を提案する。
Qwen3-0.6Bに適用した場合、s1K-1.1の推理データを直接蒸留すると、主要な推理ベンチマークで平均性能が20.5\%低下する一方、RSD生成推理トレースでトレーニングされた同じモデルでは4.9\%の有意義な改善が達成される。
分析の結果,低確率トークンが推論能力の伝達において重要なボトルネックとなっていることが明らかとなった。
しかし、クロスモデル実験により、RSDトレースは普遍的に適用されるのではなくモデル固有のものであり、各学生アーキテクチャの固有の内部表現に合わせて分布アライメントを調整する必要があることが示されている。
関連論文リスト
- Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Scaling Ensemble Distribution Distillation to Many Classes with Proxy
Targets [12.461503242570643]
emphEnsemble Distribution Distillationは、単一のモデルが、アンサンブルの予測性能と不確実性の両方を効率的にキャプチャできるアプローチである。
分類では、最大確率基準を通じてアンサンブルメンバーの出力分布の上のディリクレ分布を訓練することで達成される。
理論的には、この基準はクラス数が非常に高い大規模タスクに適用される場合の収束性に乏しい。
論文 参考訳(メタデータ) (2021-05-14T17:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。