論文の概要: Understanding Dynamic Compute Allocation in Recurrent Transformers
- arxiv url: http://arxiv.org/abs/2602.08864v1
- Date: Mon, 09 Feb 2026 16:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.360636
- Title: Understanding Dynamic Compute Allocation in Recurrent Transformers
- Title(参考訳): リカレント変圧器における動的計算機配置の理解
- Authors: Ibraheem Muhammad Moosa, Suhas Lohit, Ye Wang, Moitreya Chatterjee, Wenpeng Yin,
- Abstract要約: トークンレベルの適応計算は、より難しいトークンにより多くの計算を割り当て、より簡単なものにすることで、推論コストを削減する。
以前の作業は主にタスクレベルのメトリクスを使用して、自然なベンチマークで評価されます。
本稿では,パラメータ化困難を伴うアルゴリズムおよび合成言語タスクを用いた複雑性制御評価パラダイムを提案する。
- 参考スコア(独自算出の注目度): 23.760167933957707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Token-level adaptive computation seeks to reduce inference cost by allocating more computation to harder tokens and less to easier ones. However, prior work is primarily evaluated on natural-language benchmarks using task-level metrics, where token-level difficulty is unobservable and confounded with architectural factors, making it unclear whether compute allocation truly aligns with underlying complexity. We address this gap through three contributions. First, we introduce a complexity-controlled evaluation paradigm using algorithmic and synthetic language tasks with parameterized difficulty, enabling direct testing of token-level compute allocation. Second, we propose ANIRA, a unified recurrent Transformer framework that supports per-token variable-depth computation while isolating compute allocation decisions from other model factors. Third, we use this framework to conduct a systematic analysis of token-level adaptive computation across alignment with complexity, generalization, and decision timing. Our results show that compute allocation aligned with task complexity can emerge without explicit difficulty supervision, but such alignment does not imply algorithmic generalization: models fail to extrapolate to unseen input sizes despite allocating additional computation. We further find that early compute decisions rely on static structural cues, whereas online halting more closely tracks algorithmic execution state.
- Abstract(参考訳): トークンレベルの適応計算は、より難しいトークンにより多くの計算を割り当て、より簡単なものにすることで、推論コストを削減する。
しかし、トークンレベルの難易度は観測不能であり、アーキテクチャ上の要因と一致しているため、計算割り当てが根底にある複雑さと真に一致しているかどうかは不明である。
3つのコントリビューションを通じて、このギャップに対処します。
まず、パラメータ化困難を伴うアルゴリズムおよび合成言語タスクを用いた複雑性制御評価パラダイムを導入し、トークンレベルの計算割り当ての直接テストを可能にする。
第2に,他のモデル要素から計算割当決定を分離しながら,トークンごとの変数深度計算をサポートする統一型リカレントトランスフォーマフレームワークであるANIRAを提案する。
第3に, このフレームワークを用いて, 複雑度, 一般化, 決定タイミングの整合性を考慮したトークンレベルの適応計算を体系的に解析する。
この結果から,タスクの複雑度に整合した計算割り当ては,明示的な困難を伴わずに実現可能であることが示されたが,そのようなアライメントはアルゴリズムの一般化を示唆するものではない。
さらに、初期の計算決定は静的な構造的手がかりに依存しているのに対して、オンラインの停止はアルゴリズムの実行状態をより密に追跡している。
関連論文リスト
- Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization [8.236500918322138]
本稿では,分散の複雑さ(複雑度OoD)の一般化を推論を定義し,測定するためのフレームワークとして提案する。
モデルは、必要最小限のソリューションの複雑さがすべてのトレーニング例の複雑さを超えるテストインスタンスのパフォーマンスを維持するときに、複雑さのOoD一般化を示す。
私たちはこの視点を,スタック全体にわたる複雑度OoDの運用を推奨する形で,実践に転換します。
論文 参考訳(メタデータ) (2025-10-06T13:08:31Z) - Computational Algebra with Attention: Transformer Oracles for Border Basis Algorithms [22.546453748805025]
我々は、計算コストのかかる削減ステップを特定し、排除するTransformerベースのオラクルを設計し、訓練する。
ベースアルゴリズムと比較して, 最大3.5倍の高速化率を実現した。
我々の学習アプローチは、データ効率が高く、安定であり、従来の計算機代数アルゴリズムや記号計算の実践的な拡張である。
論文 参考訳(メタデータ) (2025-05-29T17:35:25Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - The Complexity of Optimizing Atomic Congestion [14.845310803203724]
アトミック・渋滞ゲームは、ネットワーク設計、ルーティング、アルゴリズムゲーム理論において古典的なトピックである。
非常に単純なネットワークでも問題は非常に難解なままである。
我々は、この問題の(さらに難しい)min-max変種に対する分析を拡張して結論付ける。
論文 参考訳(メタデータ) (2023-12-15T21:31:30Z) - Counting and Algorithmic Generalization with Transformers [0.0]
標準トランスフォーマーは,分散性能を損なうようなアーキテクチャ上の決定に基づくものであることを示す。
改良された変換器は、カウントにおいて優れたアルゴリズム一般化性能を示すことができることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:39:24Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Beyond Worst-Case Analysis in Stochastic Approximation: Moment
Estimation Improves Instance Complexity [58.70807593332932]
近似問題に対する勾配に基づく手法のオラクル複雑性について検討する。
最悪のケースの複雑さではなく、インスタンス依存の複雑さに焦点を当てます。
提案アルゴリズムとその解析はモーメント推定の成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-06-08T09:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。