論文の概要: Block-Recurrent Dynamics in Vision Transformers
- arxiv url: http://arxiv.org/abs/2512.19941v1
- Date: Tue, 23 Dec 2025 00:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.692725
- Title: Block-Recurrent Dynamics in Vision Transformers
- Title(参考訳): ビジョントランスにおけるブロック・リカレントダイナミクス
- Authors: Mozes Jacobs, Thomas Fel, Richard Hakim, Alessandra Brondetta, Demba Ba, T. Andy Keller,
- Abstract要約: 我々は、トレーニングされたViTは、元の$L$ブロックの計算を、繰り返し適用された$k ll L$ブロックのみを使用して正確に書き直せるようにブロック再帰的な深さ構造を許容していると主張している。
DINOv2 ImageNet-1kの線形プローブ精度を同等の計算コストで2ブロックで回収するために、Raptorモデルを訓練する。
- 参考スコア(独自算出の注目度): 42.261020313952976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision Transformers (ViTs) become standard vision backbones, a mechanistic account of their computational phenomenology is essential. Despite architectural cues that hint at dynamical structure, there is no settled framework that interprets Transformer depth as a well-characterized flow. In this work, we introduce the Block-Recurrent Hypothesis (BRH), arguing that trained ViTs admit a block-recurrent depth structure such that the computation of the original $L$ blocks can be accurately rewritten using only $k \ll L$ distinct blocks applied recurrently. Across diverse ViTs, between-layer representational similarity matrices suggest few contiguous phases. To determine whether these phases reflect genuinely reusable computation, we train block-recurrent surrogates of pretrained ViTs: Recurrent Approximations to Phase-structured TransfORmers (Raptor). In small-scale, we demonstrate that stochastic depth and training promote recurrent structure and subsequently correlate with our ability to accurately fit Raptor. We then provide an empirical existence proof for BRH by training a Raptor model to recover $96\%$ of DINOv2 ImageNet-1k linear probe accuracy in only 2 blocks at equivalent computational cost. Finally, we leverage our hypothesis to develop a program of Dynamical Interpretability. We find i) directional convergence into class-dependent angular basins with self-correcting trajectories under small perturbations, ii) token-specific dynamics, where cls executes sharp late reorientations while patch tokens exhibit strong late-stage coherence toward their mean direction, and iii) a collapse to low rank updates in late depth, consistent with convergence to low-dimensional attractors. Altogether, we find a compact recurrent program emerges along ViT depth, pointing to a low-complexity normative solution that enables these models to be studied through principled dynamical systems analysis.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は標準的なビジョンバックボーンとなるため、その計算現象学の力学的な記述が不可欠である。
動的構造を暗示するアーキテクチャの手がかりにもかかわらず、トランスフォーマーの深さを十分に特性化された流れとして解釈する確立したフレームワークは存在しない。
本稿では,Block-Recurrent hypothesis (BRH)を導入し,トレーニングされたViTはブロック再帰的な深さ構造を認め,元の$L$ブロックの計算を,再帰的に適用された$k \ll L$ブロックのみを用いて正確に書き直すことができると主張した。
多様な ViT にまたがって、層間表現類似性行列は、連続した位相をほとんど示さない。
これらの位相が真に再利用可能な計算を反映するかどうかを判断するために、予め訓練されたViTのブロック再帰的サロゲートを訓練する: 位相構造トランスフォーマー(Raptor)への再帰近似。
小規模では,確率的深度とトレーニングが繰り返し構造を促進し,Raptorを正確に適合させる能力と相関することを示した。
次に、Raptorモデルを用いて、DINOv2 ImageNet-1kリニアプローブの精度を2ブロックで同等の計算コストで再現する実験的なBRHの存在証明を提供する。
最後に、我々の仮説を利用して動的解釈可能性のプログラムを開発する。
発見
一 小さい摂動の下で自己補正軌道を有するクラス依存の角盆地への方向収束
二 トークン固有のダイナミクスで、clが急激な遅発性を再配置し、一方、パッチトークンは、その平均方向に対して強力な後期コヒーレンスを示す。
三 後深度の低位更新の崩壊で、低次元の引力の収束と整合する。
同様に、VT深度に沿ってコンパクトな再帰プログラムが出現し、これらのモデルが原理化された力学系解析によって研究できるような、低複雑さの規範的解を指し示している。
関連論文リスト
- Rethinking Vision Transformer Depth via Structural Reparameterization [16.12815682992294]
本稿では,訓練期間中に機能する分岐型構造パラメータ化手法を提案する。
提案手法では, 変圧器ブロック内の並列分岐を利用して, 合理化シングルパスモデルに体系的に統合する。
ViT-Tinyに適用した場合、このフレームワークは、ImageNet-1Kの分類精度を維持しながら、元の12層アーキテクチャを6層、4層、もしくは3層に改善する。
論文 参考訳(メタデータ) (2025-11-24T21:28:55Z) - Learning by Steering the Neural Dynamics: A Statistical Mechanics Perspective [0.0]
我々は、ニューラルネットワークが完全に局所的な分散学習をサポートする方法について研究する。
そこで本研究では,任意のバイナリ再帰ネットワークを用いた教師あり学習のための生物学的に妥当なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-13T22:28:34Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Two-Scale Latent Dynamics for Recurrent-Depth Transformers [18.852161704625562]
トークンを出力する前に遅延計算を繰り返すことにより、電流深度変換器の幾何学がテスト時間計算をスケールする。
チェックポイント全体では、ループステップがより小さくなり、互いに直交する傾向が増している。
これらのダイナミクスは、ステップサイズにおけるモデルの2階差に基づく早期退避機構を動機付けている。
論文 参考訳(メタデータ) (2025-09-27T14:01:40Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。