論文の概要: Pretraining with Token-Level Adaptive Latent Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2602.08220v1
- Date: Mon, 09 Feb 2026 02:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.038014
- Title: Pretraining with Token-Level Adaptive Latent Chain-of-Thought
- Title(参考訳): Token-Level Adaptive Latent Chain-of-Thought によるプレトレーニング
- Authors: Boyi Zeng, Yiqin Hao, He Li, Shixiang Song, Feichen Song, Zitong Wang, Siyuan Huang, Yi Xu, ZiWei He, Xinbing Wang, Zhouhan Lin,
- Abstract要約: パラメータの増加とトレーニングデータによる大規模言語モデルのスケーリングは、高品質コーパスの制限と通信コストの増大によって、ますます制限されている。
この研究は、潜在チェーン・オブ・ソート(CoT)を事前学習に内在させることにより、パラメータを拡張せずにトーケン毎の計算量を増やすという代替軸を探求する。
本稿では,各トークンを出力する前に可変長遅延CoT軌道を生成するToken-Level Adaptive Latent CoT(Adaptive Latent CoT)による事前学習を提案する。
Llamaアーキテクチャによる実験によると、適応潜在CoTは、訓練の少ないFLでも、言語モデリングの難易度と幅広い下流の精度を一貫して改善する。
- 参考スコア(独自算出の注目度): 44.19871205975474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling large language models by increasing parameters and training data is increasingly constrained by limited high-quality corpora and rising communication costs. This work explores an alternative axis: increasing per-token computation without expanding parameters, by internalizing latent Chain-of-Thought (CoT) into pretraining. We propose Pretraining with Token-Level Adaptive Latent CoT (adaptive latent CoT), where the model generates a variable-length latent CoT trajectory before emitting each token -- allocating longer trajectories to difficult tokens and shorter (or even zero) trajectories to easy ones. Importantly, this behavior emerges naturally from one-stage pretraining on general text and reduces computation in both training and inference via token-wise adaptive halting. Experiments with Llama architectures show that adaptive latent CoT consistently improves language modeling perplexity and broad downstream accuracy, even with fewer training FLOPs than prior recurrent baselines.
- Abstract(参考訳): パラメータの増加とトレーニングデータによる大規模言語モデルのスケーリングは、高品質コーパスの制限と通信コストの増大によって、ますます制限されている。
この研究は、潜在チェーン・オブ・ソート(CoT)を事前学習に内在させることにより、パラメータを拡張せずにトーケン毎の計算量を増やすという代替軸を探求する。
本稿では,各トークンを出力する前に可変長遅延CoT軌道を生成するToken-Level Adaptive Latent CoT (Adaptive Latent CoT) を用いた事前学習を提案する。
重要なことは、この振る舞いは一般的なテキスト上で1段階の事前学習から自然に現れ、トークンワイド適応停止によるトレーニングと推論の両方における計算を減らすことである。
Llamaアーキテクチャによる実験によると、適応潜在CoTは、以前のリカレントベースラインよりもトレーニングのFLOPが少なくても、言語モデリングの難易度と幅広い下流精度を一貫して改善する。
関連論文リスト
- Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-12-29T12:35:51Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space [44.24277388571869]
我々は、新しい事前学習手法を提案する:潜在思考を用いた言語モデル(PonderLM-2)
我々のアプローチでは、まず言語モデル(LM)を事前訓練して、現在位置の最後の隠れ状態である中間潜在思考を生成し、その後、実際のトークンを予測するために入力として使用される。
実験により、同一の推論コストでトークンごとに1つの追加の潜在的思考を生成するLMが、パラメータの2倍の標準モデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-09-27T08:38:08Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - TAH-QUANT: Effective Activation Quantization in Pipeline Parallelism over Slow Network [21.231881562816373]
本稿では,パイプライン並列性に特化した新しいアクティベーション量子化フレームワークTAH-Quant(Tile-wise Adaptive Hadamard Quantization)を紹介する。
提案手法は,精密制御のための細粒度タイルワイド量子化,最適ビット使用のためのエントロピー誘導トークンレベル適応ビット割り当て,およびピボット要素スワップを用いたアダマール変換を統合し,量子化出力を効果的に抑制する。
論文 参考訳(メタデータ) (2025-06-02T06:13:41Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。