論文の概要: Rethink MAE with Linear Time-Invariant Dynamics
- arxiv url: http://arxiv.org/abs/2605.00915v1
- Date: Wed, 29 Apr 2026 15:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.479671
- Title: Rethink MAE with Linear Time-Invariant Dynamics
- Title(参考訳): 線形時間不変ダイナミクスを用いたMAEの再考
- Authors: Zice Wang,
- Abstract要約: 凍結した視覚表現において,トークンの順序は重要かつ悪用可能な次元であることを示す。
状態空間モデルによって駆動される探索フレームワークであるSSMProbeを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard representation probing for visual models relies on mathematically permutation-invariant operations like Global Average Pooling (GAP) or CLS tokens, treating patch representations as an unstructured bag-of-words. We challenge this paradigm by demonstrating that token order is a critical, exploitable dimension in frozen visual representations (e.g., MAE, BEiT, DINOv2, and ViT as CLS-ablation extreme). We propose SSMProbe, a probing framework driven by a State Space Model (SSM). Operating as discrete Linear Time-Invariant (LTI) dynamical systems, SSMs act as permutation-sensitive probes where sequence order strictly dictates the final state due to inherent memory decay. Formulating token ordering as an information scheduling problem, we compare fixed scan heuristics against a differentiable soft permutation (Sinkhorn-based) learned from downstream supervision. Evaluations on standard and fine-grained classification benchmarks reveal a striking order gap: while fixed scans fail dramatically on highly localized patch features, our learned soft permutation successfully extracts highly competitive performance from otherwise heavily localized patch sequences. We find that pre-training objectives fundamentally shape token structure: DINOv2 concentrates global semantics in optimized CLS tokens leaving patches hyperspecialized, pure MAE preserves distributed representations with heterogeneous patch informativeness, and ViT represents a supervised CLS-dominated extreme. BEiT occupies middle ground. This heterogeneity is order-dependent -- meaning the SSM probe's performance depends critically on which tokens are placed at which temporal positions -- and is not merely a topological property of the spatial grid. SSMProbe's learned routing effectively discovers and exploits this heterogeneity, offering a powerful new diagnostic lens for visual representation analysis.
- Abstract(参考訳): ビジュアルモデルの標準的な表現探索は、Global Average Pooling (GAP) や CLS トークンのような数学的に置換不変な操作に依存し、パッチ表現を非構造化のバッグ・オブ・ワードとして扱う。
我々は,トークン秩序が凍結した視覚表現(例えば,MAE,BEiT,DINOv2,ViT)における臨界かつ悪用可能な次元であることを示すことによって,このパラダイムに挑戦する。
本研究では,国家空間モデル(SSM)によって駆動される探索フレームワークであるSSMProbeを提案する。
離散線形時間不変(LTI)力学系として動作し、SSMは置換感受性プローブとして機能する。
情報スケジューリング問題としてのトークンオーダの定式化では,下流の監視から学習したソフトな置換(シンクホーンベース)と固定スキャンヒューリスティックスを比較した。
固定スキャンは高度に局所化されたパッチ機能では劇的に失敗するが、我々の学習したソフトな置換は高度に局所化されたパッチシーケンスから高い競争性能を抽出することに成功した。
DINOv2は、最適化されたCLSトークンのグローバルセマンティクスに集中し、パッチを過剰に特定し、純粋なMAEは異種パッチ情報による分散表現を保存し、ViTはCLSが支配する極端に監督された極端な表現を表す。
BeiTは中盤を占拠している。
この不均一性は順序に依存し、つまりSSMプローブのパフォーマンスは、時間的位置のトークンがどの位置に置かれるかに決定的に依存し、単に空間格子の位相的性質であるわけではない。
SSMProbeの学習したルーティングは、この不均一性を効果的に発見し、活用し、視覚的表現分析のための強力な新しい診断レンズを提供する。
関連論文リスト
- ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging [0.0]
ZACH-ViTはコンパクトなビジョン変換器で、位置埋め込みとトークンの両方を取り除きます。
特に「ゼロトークン」とは、専用の[NIST]アグリゲーショントークンと位置埋め込みを取り除くことを指す。
ZACH-ViTは、サブ秒の推論時間を維持しながら競合性能を達成する。
論文 参考訳(メタデータ) (2026-02-20T01:38:59Z) - SMKC: Sketch Based Kernel Correlation Images for Variable Cardinality Time Series Anomaly Detection [0.0]
運用環境では、監視システムはセンサーチャーンを頻繁に経験する。
本稿では,異常検出器から動的入力構造を分離するフレームワークSMKCを提案する。
SMKC表現におけるランダムプロジェクションと近傍近傍の検出器は、完全に訓練されたベースラインと競合する。
論文 参考訳(メタデータ) (2026-01-28T21:15:11Z) - Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models [68.31088463716269]
状態空間モデル(SSM)における遷移行列の構造的スパースパラメトリゼーションを提案する。
我々の方法PD-SSMは、遷移行列をカラム1ホット行列(P$)と複素数値対角行列(D$)の積としてパラメータ化する。
このモデルは、様々なFSA状態追跡タスクにおいて、現代のSSMの多種多様なバリエーションを著しく上回っている。
論文 参考訳(メタデータ) (2025-09-26T12:46:30Z) - SemaMIL: Semantic-Aware Multiple Instance Learning with Retrieval-Guided State Space Modeling for Whole Slide Images [17.674866281320046]
SemaMILは,スライド画像全体から識別特徴を抽出する適応的手法である。
セマンティックに類似したパッチを、可逆的な置換によってシーケンスでクラスタ化する。
FLOPやパラメータを少なくして最先端のサブタイプ精度を実現する。
論文 参考訳(メタデータ) (2025-08-30T10:13:18Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For Hidden Markov Models [41.99844472131922]
ノイズ観測から元の信号を復号することは、ほぼすべてのHMMデータ解析における主要な目標の1つである。
QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATS, QATSについて述べる。
QATSの実装はGitHubのRパッケージQATSにある。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。