論文の概要: TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance
- arxiv url: http://arxiv.org/abs/2503.24198v1
- Date: Mon, 31 Mar 2025 15:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:34.992687
- Title: TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance
- Title(参考訳): TwT:多教師の指導による習慣的推論による無意識の思考
- Authors: Jingxian Xu, Mengyu Zhou, Weichang Liu, Hanbing Liu, Shi Han, Dongmei Zhang,
- Abstract要約: 多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。
提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。
実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
- 参考スコア(独自算出の注目度): 42.8895384120507
- License:
- Abstract: Large Language Models (LLMs) have made significant strides in problem-solving by incorporating reasoning processes. However, this enhanced reasoning capability results in an increased number of output tokens during inference, leading to higher computational costs. To address this challenge, we propose TwT (Thinking without Tokens), a method that reduces inference-time costs through habitual reasoning distillation with multi-teachers' guidance, while maintaining high performance. Our approach introduces a Habitual Reasoning Distillation method, which internalizes explicit reasoning into the model's habitual behavior through a Teacher-Guided compression strategy inspired by human cognition. Additionally, we propose Dual-Criteria Rejection Sampling (DCRS), a technique that generates a high-quality and diverse distillation dataset using multiple teacher models, making our method suitable for unsupervised scenarios. Experimental results demonstrate that TwT effectively reduces inference costs while preserving superior performance, achieving up to a 13.6% improvement in accuracy with fewer output tokens compared to other distillation methods, offering a highly practical solution for efficient LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論プロセスを組み込むことで問題解決に大きく貢献している。
しかし、この推論能力の強化により、推論中に出力トークンの数が増加し、計算コストが上昇する。
この課題に対処するために,多教師指導による常習的推論蒸留による推論時間コストを削減する手法TwT(Thinking without Tokens)を提案する。
提案手法では,人間の認知に触発された教師指導型圧縮戦略により,モデルが持つ習慣行動への明確な推論を内部的に行う習慣推論蒸留法を提案する。
さらに,複数の教師モデルを用いて高品質で多様な蒸留データセットを生成する手法であるDual-Criteria Rejection Smpling (DCRS)を提案する。
実験の結果、TwTは優れた性能を維持しながら推論コストを効果的に低減し、他の蒸留法と比較して出力トークンが少なく、13.6%の精度向上を実現し、効率的なLCM配置のための非常に実用的なソリューションを提供することが示された。
関連論文リスト
- Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - Coarse-to-Fine Process Reward Modeling for Mathematical Reasoning [11.15613673478208]
プロセス・リワード・モデル (Process Reward Model, PRM) は数学的推論において重要な役割を担い、高品質なプロセスデータを必要とする。
我々は,Large Language Models (LLM) が生成する推論ステップが,厳密なインクリメンタルな情報表示に失敗することが多く,冗長性が生じることを観察する。
本稿では,冗長なステップを検出するための簡易かつ効果的な粗大な戦略CFPRMを提案する。
論文 参考訳(メタデータ) (2025-01-23T12:44:45Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - One Step Diffusion-based Super-Resolution with Time-Aware Distillation [60.262651082672235]
拡散に基づく画像超解像(SR)法は,低解像度画像から細部まで細部まで,高解像度画像の再構成に有望であることを示す。
近年,拡散型SRモデルの知識蒸留によるサンプリング効率の向上が試みられている。
我々は,効率的な画像超解像を実現するため,TAD-SRというタイムアウェア拡散蒸留法を提案する。
論文 参考訳(メタデータ) (2024-08-14T11:47:22Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Keypoint-based Progressive Chain-of-Thought Distillation for LLMs [46.53906673648466]
思考の連鎖蒸留は、推論能力を大きな言語モデルからより小さな学生モデルに伝達する強力な技術である。
従来の手法では、学生はLLMによって生成されるステップバイステップの合理性を模倣する必要がある。
我々はこれらの問題に対処する統合フレームワークKPODを提案する。
論文 参考訳(メタデータ) (2024-05-25T05:27:38Z) - QCRD: Quality-guided Contrastive Rationale Distillation for Large Language Models [13.54030164748731]
本稿では,品質誘導型コントラスト的合理的蒸留法を推論能力学習のための一般手法として提案する。
肯定的な知識を学習するために、自己整合性を通して有理性を収集し、温度サンプリングによって生成されたLCMの有理性を見極める。
負の知識蒸留では、反復前の小さな言語モデル自体の温度サンプリングを用いて負の有理値を生成する。
論文 参考訳(メタデータ) (2024-05-14T13:07:10Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。