論文の概要: AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth
- arxiv url: http://arxiv.org/abs/2603.01914v2
- Date: Wed, 11 Mar 2026 08:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 14:12:43.956712
- Title: AdaPonderLM: Gated Pondering Language Models with Token-Wise Adaptive Depth
- Title(参考訳): AdaPonderLM:Token-Wise適応深さを持つゲーテッドポンダリング言語モデル
- Authors: Shixiang Song, He Li, Zitong Wang, Boyi Zeng, Feichen Song, Yixuan Wang, Zhiqin John Xu, Ziwei He, Zhouhan Lin,
- Abstract要約: AdaPonderLMは、事前トレーニング中にトークン単位の早期終了を学習する、自己教師型リカレント言語モデルである。
AdaPonderLMは、比較可能な言語モデリングの難易度と競合する下流の精度を維持しながら、推論計算を約10%削減する。
- 参考スコア(独自算出の注目度): 23.442686851761298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling via recurrent/iterative Transformers enables large language models to spend more computation at inference, but most pretrained recurrent LMs run a fixed number of iterations, wasting compute on easy tokens and lacking token-wise adaptivity. Following the core idea of Adaptive Computation Time(ACT) and Early Exit(EE), we propose AdaPonderLM, a self-supervised recurrent language model that learns token-wise early exiting during pretraining without manually tuned per-token/per-layer pruning ratios. AdaPonderLM uses iteration-specific MLP gates with a monotonic halting mask to decide when each token stops recurring, and introduces a KV reuse mechanism that reuses cached key/value states for halted tokens, ensuring train--test consistency and practical acceleration. Across Pythia backbones from 70M to 410M (pretraining) and up to 2.8B (continued pretraining), AdaPonderLM reduces inference compute at about 10% while maintaining comparable language modeling perplexity and competitive downstream accuracy. Our analysis shows the learned gates allocate more computation to high-NLL (hard) tokens, exhibiting adaptive computation time behavior in a fully self-supervised setting. Meanwhile, under iso-FLOPs, the learned halting policy consistently outperforms fixed pruning, showing AdaPonderLM allocates compute to the right tokens rather than just reducing average depth.
- Abstract(参考訳): リカレント/イテレーティブトランスフォーマーによるテストタイムスケーリングにより、大規模な言語モデルでは推論により多くの計算を費やすことができるが、事前訓練されたリカレントLMは、固定された回数のイテレーションを実行し、簡単なトークンの計算を無駄にし、トークンの適応性に欠ける。
本稿では,適応計算時間(ACT)と早期実行時間(EE)のコアアイデアに倣って,手作業で手作業で1層当たりのプルーニング比を調整することなく,事前学習中にトークン単位の早期終了を学習する自己教師付きリカレント言語モデルであるAdaPonderLMを提案する。
AdaPonderLMは、単調停止マスクを備えたイテレーション固有のMLPゲートを使用して、各トークンが繰り返し停止するタイミングを決定するとともに、停止したトークンに対してキャッシュされたキー/値状態を再利用し、列車-テストの一貫性と実用的なアクセラレーションを保証するKV再利用機構を導入している。
ピティアのバックボーンは70Mから410M(事前トレーニング)、最大2.8B(継続事前トレーニング)まであり、AdaPonderLMは推論計算を約10%削減し、言語モデリングの複雑さと競合する下流の精度を維持している。
分析の結果,学習ゲートは高NLL(ハード)トークンにより多くの計算を割り当て,完全に自己制御された環境での適応的な計算時間挙動を示すことがわかった。
一方、Iso-FLOPでは、学習した停止ポリシーは固定プルーニングよりも一貫して優れており、AdaPonderLMは平均深さを減らすのではなく、正しいトークンに計算を割り当てている。
関連論文リスト
- Pretraining with Token-Level Adaptive Latent Chain-of-Thought [44.19871205975474]
パラメータの増加とトレーニングデータによる大規模言語モデルのスケーリングは、高品質コーパスの制限と通信コストの増大によって、ますます制限されている。
この研究は、潜在チェーン・オブ・ソート(CoT)を事前学習に内在させることにより、パラメータを拡張せずにトーケン毎の計算量を増やすという代替軸を探求する。
本稿では,各トークンを出力する前に可変長遅延CoT軌道を生成するToken-Level Adaptive Latent CoT(Adaptive Latent CoT)による事前学習を提案する。
Llamaアーキテクチャによる実験によると、適応潜在CoTは、訓練の少ないFLでも、言語モデリングの難易度と幅広い下流の精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-09T02:49:15Z) - ConceptMoE: Adaptive Token-to-Concept Compression for Implicit Compute Allocation [12.503747711792679]
ConceptMoEは意味的に類似したトークンを概念表現に動的にマージする。
学習可能なチャンクモジュールは、トークン間の類似度を測定して最適な境界を識別する。
ConceptMoE は言語および視覚言語タスクで標準 MoE を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T08:58:22Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space [38.50132130644233]
計算変換器における推論時間の計算をスケールするための現在のアプローチは、答えを生成する前に明示的な連鎖トークンを出力するようにトレーニングすることに依存している。
Thoughtbubblesは、残留ストリームのフォークや削除を学ぶことで、潜在空間における並列適応計算を実行するトランスフォーマーである。
Thoughtbubbles は標準デコーダ LM と OpenWebText と peS2o のパープレキシティおよびHellaSwag や LAMBADA などのゼロショット評価において、非適応並列計算手法の両方に優れる。
論文 参考訳(メタデータ) (2025-09-30T19:49:15Z) - ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs [1.1834200163382398]
ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。
MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
論文 参考訳(メタデータ) (2025-07-29T01:07:09Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。