論文の概要: A transformer architecture alteration to incentivise externalised reasoning
- arxiv url: http://arxiv.org/abs/2603.21376v2
- Date: Tue, 24 Mar 2026 06:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.602199
- Title: A transformer architecture alteration to incentivise externalised reasoning
- Title(参考訳): 外部推論にインセンティブを与えるトランスフォーマーアーキテクチャの変更
- Authors: Elizabeth Pavlova, Mariia Koroliuk, Karthik Viswanathan, Cameron Tice, Edward James Young, Puria Radmard,
- Abstract要約: 我々は,中間層で早期終了機構を備えた既存のトランスフォーマーアーキテクチャを拡張し,次のトークンを深層計算なしで予測できる場合に,より浅い層でモデルを出力するように訓練する。
この効果を小さな推論モデルに適用し、トークン間の計算を適応的に削減することを学ぶことを示す。
適切なスケールで適用すれば、推論モデルが非ミオピック計画を実行するために処理する過剰な計算量を最小化できると予測する。
- 参考スコア(独自算出の注目度): 1.2571323258597842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new architectural change, and post-training pipeline, for making LLMs more verbose reasoners by teaching a model to truncate forward passes early. We augment an existing transformer architecture with an early-exit mechanism at intermediate layers and train the model to exit at shallower layers when the next token can be predicted without deep computation. After a calibration stage, we incentivise the model to exit as early as possible while maintaining task performance using reinforcement learning. We provide preliminary results to this effect for small reasoning models, showing that they learn to adaptively reduce computations across tokens. We predict that, applied at the right scale, our approach can minimise the amount of excess computation that reasoning models have at their disposal to perform non-myopic planning using their internal activations, reserving this only for difficult-to-predict tokens.
- Abstract(参考訳): 我々は,LLMが前方通過を早期に切り離すモデルを教えることで,より冗長な推論を行うための新しいアーキテクチャ変更と後学習パイプラインを提案する。
我々は,中間層で早期終了機構を備えた既存のトランスフォーマーアーキテクチャを拡張し,次のトークンを深層計算なしで予測できる場合に,より浅い層でモデルを出力するように訓練する。
キャリブレーション段階の後、強化学習を用いてタスク性能を維持しながら、モデルをできるだけ早く終了させるインセンティブを与える。
この効果を小さな推論モデルに適用し、トークン間の計算を適応的に削減することを学ぶことを示す。
適切なスケールで適用することで、推論モデルが内部のアクティベーションを用いて非明視的計画を行うために処理する過剰な計算量を最小化し、これを予測し難いトークンにのみ保存できると予測する。
関連論文リスト
- Learning a Generative Meta-Model of LLM Activations [75.30161960337892]
ネットワークの内部状態の分布を学習する"メタモデル"を作成します。
ステアリング介入前に学んだメタモデルを適用することで、損失が減少するにつれて、流速が向上する。
これらの結果は、生成的メタモデルが制限的な構造的仮定を伴わずに、解釈可能性へのスケーラブルな経路を提供することを示唆している。
論文 参考訳(メタデータ) (2026-02-06T18:59:56Z) - The Effectiveness of Approximate Regularized Replay for Efficient Supervised Fine-Tuning of Large Language Models [17.1510128169152]
LoRAベースの教師付き微調整は、壊滅的にモデルの能力が低下する可能性がある。
オーバーヘッドがほとんどないトレーニング手順の微調整は、この問題を事実上排除することができる。
論文 参考訳(メタデータ) (2025-12-26T18:55:42Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。