論文の概要: Subjective Depth and Timescale Transformers: Learning Where and When to Compute
- arxiv url: http://arxiv.org/abs/2511.21408v1
- Date: Wed, 26 Nov 2025 14:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.126715
- Title: Subjective Depth and Timescale Transformers: Learning Where and When to Compute
- Title(参考訳): 主観深度と時間スケール変換器:計算の場所とタイミングを学習する
- Authors: Frederico Wieser, Martin Benfeghoul, Haitham Bou Ammar, Jun Wang, Zafeirios Fountas,
- Abstract要約: 主観的深度変換器(SDT)と主観的時間スケール変換器(STT)を紹介する。
SDTとSTTはベイジアン・サプライズ信号を利用して動的に計算をルーティングし、デコーダのみのTF内で計算する場所とタイミングを学習する。
提案したアーキテクチャは,効率向上のためのフレキシブルなフレームワークを確立し,各計算スキップ層内で自己注意計算を75%,KVキャッシュ要求を50%削減し,より効率的なモデルのための経路を設定する。
- 参考スコア(独自算出の注目度): 15.164635408299304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rigid, uniform allocation of computation in standard Transformer (TF) architectures can limit their efficiency and scalability, particularly for large-scale models and long sequences. Addressing this, we introduce Subjective Depth Transformers (SDT) and Subjective Timescale Transformers (STT), two distinct architectures that leverage Bayesian surprise signals to dynamically route computation, learning where and when to compute within decoder-only TFs. SDT augments a decoder-only stack with alternating Decision and Dynamic layers: a Decision layer computes a full block 'posterior' and a lightweight 'prior,' while a Dynamic layer employs fixed-capacity Top-K routing based on Bayesian surprise (Expected and Unexpected Change), maintaining a static compute graph. STT extends this conditional computation to the temporal domain: a transition network predicts residual updates, forming a temporal 'change hypothesis' that informs a router to dynamically execute or bypass TF blocks for each token, managing KV-cache contributions. Both architectures exhibit the predicted shift from novelty to prediction driven gating over training, suggesting alignment with surprise based principles. While operating at reduced capacity, they offer preliminary insights into the compute-accuracy trade-offs of conditional computation. The proposed architectures establish a flexible framework for efficiency, reducing self-attention computation by 75% and KV-cache requirements by 50% within each compute skipping layer, setting a pathway for more efficient models.
- Abstract(参考訳): 標準トランスフォーマー(TF)アーキテクチャにおける計算の厳密で均一な割り当ては、特に大規模モデルや長いシーケンスにおいて、その効率とスケーラビリティを制限できる。
そこで本稿では,ベイジアン・サプライズ・シグナルを動的にルーティングし,デコーダのみのTFで計算する場所とタイミングを学習する2つのアーキテクチャである,主観的深度変換器(SDT)と主観的時間スケール変換器(STT)を紹介する。
決定層はフルブロックの"posterior"と軽量の"prior"を計算し、動的層はベイジアンサプライズ(Expected and Unexpected Change)に基づいた固定容量のTop-Kルーティングを採用し、静的な計算グラフを維持する。
STTは、この条件計算を時間領域に拡張する: 遷移ネットワークは、残余更新を予測し、ルータにトークンごとにTFブロックを動的に実行またはバイパスするよう通知し、KV-cacheコントリビューションを管理する。
どちらのアーキテクチャも、予想されるノベルティからトレーニングよりも予測駆動のゲーティングへの移行を示し、サプライズベースの原則との整合性を示唆している。
容量を削減しながら、条件計算の計算精度トレードオフに関する予備的な洞察を提供する。
提案したアーキテクチャは,効率向上のためのフレキシブルなフレームワークを確立し,各計算スキップ層内で自己注意計算を75%,KVキャッシュ要求を50%削減し,より効率的なモデルのための経路を設定する。
関連論文リスト
- Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - STAS: Spatio-Temporal Adaptive Computation Time for Spiking Transformers [5.234835661080496]
スパイキングニューラルネットワーク(SNN)は、人工知能ニューラルネットワーク(ANN)よりもエネルギー効率が高いが、高いレイテンシと計算オーバーヘッドに悩まされている。
本稿では,静的アーキテクチャと動的計算ポリシを協調設計するフレームワークSTAS(Spatio-Temporal Adaptive Computing Time for Spiking Transformers)を提案する。
論文 参考訳(メタデータ) (2025-08-19T13:18:21Z) - Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - DyTTP: Trajectory Prediction with Normalization-Free Transformers [0.0]
トランスフォーマーベースのアーキテクチャは、複雑な堅牢性依存関係をキャプチャする上で大きな可能性を証明している。
これらの課題に対処するための2つのアプローチを提案する。
まず、トランスフォーマーを促進する最新の方法であるDynamicTanh(DyT)をバックボーンに統合し、従来のレイヤ正規化を置き換える。
DyTを軌道予測タスクにデプロイする最初の作業です。
論文 参考訳(メタデータ) (2025-04-07T09:26:25Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。