論文の概要: Dynamic Mode Decomposition along Depth in Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.07556v1
- Date: Fri, 08 May 2026 10:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.995187
- Title: Dynamic Mode Decomposition along Depth in Vision Transformers
- Title(参考訳): 視覚変換器の深さ方向の動的モード分解
- Authors: Nishant Suresh Aswani, Saif Eddin Jabari,
- Abstract要約: 我々は,ViTの深さがほぼ自明な線形力学を実装しているかどうかを問う。
我々は、動的モード分解(DMD)を用いてこれをテストし、選択された連続した隠れ状態ペアからK$に適合する。
予め訓練した4種類のDINO ViTについて, 安定適合に必要な正則化, ランク, 校正予算について検討した。
- 参考スコア(独自算出の注目度): 2.899294572150795
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has shown that contiguous vision transformer (ViT) blocks (a) can be replaced by a linear map and (b) organize into recurrent phases of computation. We ask whether these observations coincide: does ViT depth implement approximately \textit{autonomous linear} dynamics, admitting a single operator $K$ applied recurrently across a contiguous span? We test this using Dynamic Mode Decomposition (DMD), which fits $K$ from selected, consecutive hidden-state pairs and predicts $p$ steps ahead via $K^p$. On four pretrained DINO ViTs, we study the regularization, rank, and calibration budget required for stable fitting. For short spans ($p \leq 4$), $K^p$ tracks an unconstrained endpoint map to within $0.02$ cosine similarity on DINOv3-H/16+, while also recovering intermediate activations at each skipped block. At early cut starts, the fitted operators compress to rank $\ll d$ with minimal calibration data, and across tokens, \texttt{cls} is most amenable to linearization; both properties decay monotonically with depth. Yet this local fidelity does not transfer downstream. At the final hidden state, after propagating through the remaining blocks, an identity baseline becomes competitive.
- Abstract(参考訳): 最近の研究は、連続視覚変換器(ViT)ブロックが示している
(a) を線型写像に置き換えることができる
(b)計算の繰り返しフェーズに編成する。
ViT depth はおよそ \textit{autonomous linear} dynamics を実装しており、連続したスパンに1つの演算子$K$を連続的に適用することを認めるか?
我々はDynamic Mode Decomposition (DMD)を用いてこれをテストし、選択された連続した隠れ状態ペアから$K$に適合し、$K^p$を介して$p$のステップを予測します。
予め訓練した4種類のDINO ViTについて, 安定適合に必要な正則化, ランク, 校正予算について検討した。
ショートスパン($p \leq 4$)の場合、$K^p$は非制約のエンドポイントマップをDINOv3-H/16+で0.02$のコサイン類似度まで追跡し、スキップブロックごとに中間アクティベーションを回復する。
初期のカット開始時に、適合作用素は最小限のキャリブレーションデータで$\ll d$のランクに圧縮され、トークン間では \texttt{cls} は線形化に最も適しており、両方の性質は深さとともに単調に崩壊する。
しかし、この局所的な忠実さは下流に伝達しない。
最後の隠れ状態では、残りのブロックを伝搬した後、アイデンティティベースラインが競合する。
関連論文リスト
- Dimensional Criticality at Grokking Across MLPs and Transformers [2.652953665748039]
異なる力学系間の急激な遷移は、複雑なシステムの目印である。
オフライン雪崩探査機 textbfTDU-OFC (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。
モジュラー加算と XOR で訓練された一般化を訓練したトランスフォーマーは、拡散ベースラインの局所的交差をD=1$で発見する。
論文 参考訳(メタデータ) (2026-04-06T13:43:20Z) - Avoiding Premature Collapse: Adaptive Annealing for Entropy-Regularized Structural Inference [1.7523718031184992]
この障害の基本的なメカニズムは、 textbf Premature Mode Collapseである。
提案手法は,適応型スケジューリングアルゴリズムであるtextbfEfficient Piecewise Hybrid Adaptive Stability Control (EPH-ASC) で,推論過程の安定性をモニタする。
論文 参考訳(メタデータ) (2026-01-30T14:47:18Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Near-Linear Time and Fixed-Parameter Tractable Algorithms for Tensor
Decompositions [51.19236668224547]
テンソルの低階近似について検討し,テンソルトレインとタッカー分解に着目した。
テンソル列車の分解には、小さなビクリテリアランクを持つビクリテリア$(1 + eps)$-approximationアルゴリズムと、O(q cdot nnz(A))$ランニングタイムを与える。
さらに、任意のグラフを持つテンソルネットワークにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2022-07-15T11:55:09Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。