論文の概要: On-Policy Self-Distillation for Reasoning Compression
- arxiv url: http://arxiv.org/abs/2603.05433v2
- Date: Sun, 08 Mar 2026 06:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.485389
- Title: On-Policy Self-Distillation for Reasoning Compression
- Title(参考訳): 共振圧縮のためのオンライン自己蒸留
- Authors: Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun,
- Abstract要約: OPSDCはモデルに、自身の簡潔な振る舞いを自分自身に蒸留することで、より簡潔に推論するように教える。
根底からの答えも、トークンの予算も、予測の難しさもない。
コードはhttps://github.com/HJSang/OPSD_Reasoning_Compressionで公開されている。
- 参考スコア(独自算出の注目度): 22.991621900481377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models think out loud, but much of what they say is noise. We introduce OPSDC (On-Policy Self-Distillation for Reasoning Compression), a method that teaches models to reason more concisely by distilling their own concise behavior back into themselves. The entire approach reduces to one idea: condition the same model on a "be concise" instruction to obtain teacher logits, and minimize per-token reverse KL on the student's own rollouts. No ground-truth answers, no token budgets, no difficulty estimators. Just self-distillation. Yet this simplicity belies surprising sophistication: OPSDC automatically compresses easy problems aggressively while preserving the deliberation needed for hard ones. On Qwen3-8B and Qwen3-14B, we achieve 57-59% token reduction on MATH-500 while improving accuracy by 9-16 points absolute. On AIME 2024, the 14B model gains 10 points with 41% compression. The secret? Much of what reasoning models produce is not just redundant-it is actively harmful, compounding errors with every unnecessary token. Code is available at https://github.com/HJSang/OPSD_Reasoning_Compression.
- Abstract(参考訳): 推論モデルは、大声で考えるが、そのほとんどがノイズだ。
OPSDC(On-Policy Self-Distillation for Reasoning Compression)は,自己の簡潔な振る舞いを自分自身に蒸留することによって,より簡潔な推論をモデルに教える手法である。
アプローチ全体では、教師のロジットを取得するために「簡潔な」命令で同じモデルを条件付けし、学生自身のロールアウトにおいて、学生一人当たりの逆KLを最小化する、という1つのアイデアに還元される。
根底からの答えもトークンの予算も、難易度推定器もなかった。
ただの自己蒸留。
OPSDCは、難しいものに必要な熟考を保ちながら、簡単な問題を積極的に圧縮します。
Qwen3-8BとQwen3-14Bでは,MATH-500では57~59%のトークン削減を実現し,9~16ポイントの精度向上を実現した。
AIME 2024では、14Bモデルは圧縮率41%で10ポイントを獲得した。
秘密は?
モデルが生み出す理由の多くは単に冗長なものではなく、不必要なトークンとエラーを混同して、活発に有害である。
コードはhttps://github.com/HJSang/OPSD_Reasoning_Compressionで公開されている。
関連論文リスト
- ConPress: Learning Efficient Reasoning from Multi-Question Contextual Pressure [6.494457510860719]
自己圧縮(Self-Compression)と呼ばれる再現可能な推論時間現象を同定する。
複数の独立した答え可能な質問が1つのプロンプト内で提示されると、モデルは各質問に対するより短い推論トレースを自発的に生成する。
軽量な自己教師型微調整手法であるConPressを提案する。
論文 参考訳(メタデータ) (2026-02-01T22:31:19Z) - Reinforcement Learning for Chain of Thought Compression with One-Domain-to-All Generalization [27.13234369037689]
大規模言語モデルにおけるチェーン・オブ・シント推論は、"過度な罠"を引き起こす可能性がある
そこで本研究では,有能なサンプルレベルのソフト強化学習圧縮を提案する。
モデルがすでに問題を解決している場合にのみ、長時間のロールアウトをペナルティ化し、ロールアウトを短縮した。
論文 参考訳(メタデータ) (2025-12-19T06:30:54Z) - ORION: Teaching Language Models to Reason Efficiently in the Language of Thought [35.37673707476835]
我々は、Mentaleseと呼ばれる同様のコンパクトなスタイルでモデルを推論するように訓練するフレームワークを導入する。
メンタレーゼは抽象的推論を超圧縮された構造化トークンとして符号化し、モデルがより少ないステップで複雑な問題を解くことを可能にする。
メンタレーゼ型圧縮推論は、人間の認知効率を向上し、精度を犠牲にすることなく、リアルタイムで費用対効果の高い推論を可能にする。
論文 参考訳(メタデータ) (2025-11-28T05:41:55Z) - Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [36.40577746211243]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - Learning from Peers in Reasoning Models [30.683206230784]
大きな推論モデル(LRM)は、推論パスでミスをしても自己修正する能力を持つ。
我々の研究は、推論プロセスが短いが貧弱な開始から始まると、モデルが回復することが困難になることを示している。
ピアインタラクションが、すでに正確な個人に悪影響を及ぼすことなく自己補正を促進するという心理学的な知見に触発されて、この現象に対処するために、 **Learning from Peers**(LeaP)を提案する。
論文 参考訳(メタデータ) (2025-05-12T17:39:56Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。
我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2020-11-23T01:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。