論文の概要: ThinkSwitch: Context Distillation with LoRA and Weight Interpolation for Specific-Purpose Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2606.01080v1
- Date: Sun, 31 May 2026 07:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.195186
- Title: ThinkSwitch: Context Distillation with LoRA and Weight Interpolation for Specific-Purpose Reasoning Tasks
- Title(参考訳): ThinkSwitch:LoRAによるコンテキスト蒸留と特定目的推論タスクの軽量補間
- Authors: Dhruv Saini, Rohan Pandey,
- Abstract要約: textbfThinkSwitchは、ペア化された命令と思考チェックポイントを協調学習するための低計算手順である。
結果は小さいが, 対象の蒸留ループは, 個別の思考モードを維持しながら, 比重に比例した推論の利点の一部を移動させることができることを示している。
- 参考スコア(独自算出の注目度): 1.5369106213673014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often improve on difficult tasks by spending inference-time compute on a reasoning trace before producing the final answer. That extra computation can be useful, but it also raises latency, token cost, and deployment complexity. We introduce \textbf{ThinkSwitch}, a low-compute procedure for co-training paired instruct and thinking checkpoints. Starting from compatible Qwen3-4B instruct and thinking models, each iteration asks the thinking checkpoint to generate answers, removes the reasoning trace, distills the answer-only pairs into the instruct checkpoint with QLoRA, and reconstructs a thinking checkpoint with spherical weight interpolation. The only human-supplied inputs are task prompts; the labels are generated by the model itself. On a 30-question AIME 2026 evaluation, ThinkSwitch improves the instruct checkpoint from 10/30 to 20/30 and the thinking checkpoint from 14/30 to 22/30. On a 30-question PubMedQA subset, it improves the instruct checkpoint from 13/30 to 18/30 and the thinking checkpoint from 18/30 to 25/30. The complete experiment uses 15 training prompts per domain and costs \$2.86 on a single cloud RTX 3070. The results are small-scale, but they indicate that targeted distillation loops can move part of the benefit of explicit reasoning into weights while preserving a separate thinking mode.
- Abstract(参考訳): 大規模言語モデルは、最終的な答えを生成する前に、推論時間計算を推論トレースに費やすことで、困難なタスクを改善することが多い。
この余分な計算は有用ですが、レイテンシやトークンコスト、デプロイメントの複雑さも高くなります。
本稿では,ペア型インストラクションと思考チェックポイントを併用する低計算手順である「textbf{ThinkSwitch}」を紹介する。
互換性のあるQwen3-4Bインストラクションと思考モデルから始め、各イテレーションは思考チェックポイントに回答を生成し、推論トレースを除去し、回答のみのペアをQLoRAでインストラクトチェックポイントに蒸留し、球重補間で思考チェックポイントを再構築する。
人間の入力はタスクプロンプトのみであり、ラベルはモデル自身によって生成される。
インストラクションチェックポイントを10/30から20/30に、思考チェックポイントを14/30から22/30に改善する。
30問のPubMedQAサブセットでは、インストラクションチェックポイントを13/30から18/30に改善し、思考チェックポイントを18/30から25/30に改善する。
完全な実験では、ドメイン毎に15のトレーニングプロンプトを使用しており、単一のクラウドRTX 3070に対して2.86ドルのコストがかかる。
結果は小さいが, 対象の蒸留ループは, 個別の思考モードを維持しながら, 比重に比例した推論の利点の一部を移動させることができることを示している。
関連論文リスト
- Entropy After $\langle \texttt{/Think} \rangle$ for reasoning model early exiting [38.93424884988798]
正しい解に到達した後も、回答を再検討し続けながら、大きな推論モデルが過大評価されていることを示す。
We propose Entropy After /Think> (EAT) for monitoring and decide whether to exit reasoning early。
EATは、正確性を損なうことなく、トークン使用量を13~21%削減する。
論文 参考訳(メタデータ) (2025-09-30T16:59:37Z) - Stop Spinning Wheels: Mitigating LLM Overthinking via Mining Patterns for Early Reasoning Exit [114.83867400179354]
オーバーライドは、大きな言語モデル全体のパフォーマンスを低下させる可能性がある。
推論は, 探索段階の不足, 補償推論段階, 推論収束段階の3段階に分類される。
我々は,ルールに基づく軽量なしきい値設定戦略を開発し,推論精度を向上させる。
論文 参考訳(メタデータ) (2025-08-25T03:17:17Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。
我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。
Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文 参考訳(メタデータ) (2025-05-19T17:24:16Z) - Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか?
我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。
これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文 参考訳(メタデータ) (2025-04-29T12:39:07Z) - Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach [70.44265766483633]
本稿では,潜在空間における暗黙的推論によるテスト時間計算のスケールアップが可能な,新しい言語モデルアーキテクチャについて検討する。
我々のモデルは繰り返しブロックを繰り返すことで動作し、テスト時に任意の深さに展開する。
結果のモデルが推論ベンチマークの性能を劇的に改善できることが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:02Z) - Large Language Models Can Self-Correct with Key Condition Verification [39.67266805233599]
単純で効果的な検証手法は,大規模言語モデルの本質的な能力を解き放つことができる。
本稿では, 誤応答を段階的に識別し, 訂正する反復的検証列補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T01:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。