論文の概要: Mechanisms of Non-Monotonic Scaling in Vision Transformers
- arxiv url: http://arxiv.org/abs/2511.21635v1
- Date: Wed, 26 Nov 2025 18:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.235776
- Title: Mechanisms of Non-Monotonic Scaling in Vision Transformers
- Title(参考訳): 視覚変換器における非単調スケーリングのメカニズム
- Authors: Anantha Padmanaban Krishna Kumar,
- Abstract要約: 我々は、深度で表現がどのように進化するかを規定する三相クリフ・オー・クリムブパターンを定式化する。
Information Scrambling Indexと混在する情報のパターンを定量化し、ViT-Lでは、情報タスクのトレードオフがViT-Bよりも約10層遅れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deeper Vision Transformers often perform worse than shallower ones, which challenges common scaling assumptions. Through a systematic empirical analysis of ViT-S, ViT-B, and ViT-L on ImageNet, we identify a consistent three-phase Cliff-Plateau-Climb pattern that governs how representations evolve with depth. We observe that better performance is associated with progressive marginalization of the [CLS] token, originally designed as a global aggregation hub, in favor of distributed consensus among patch tokens. We quantify patterns of information mixing with an Information Scrambling Index, and show that in ViT-L the information-task tradeoff emerges roughly 10 layers later than in ViT-B, and that these additional layers correlate with increased information diffusion rather than improved task performance. Taken together, these results suggest that transformer architectures in this regime may benefit more from carefully calibrated depth that executes clean phase transitions than from simply increasing parameter count. The Information Scrambling Index provides a useful diagnostic for existing models and suggests a potential design target for future architectures. All code is available at: https://github.com/AnanthaPadmanaban-KrishnaKumar/Cliff-Plateau-Climb.
- Abstract(参考訳): ディープビジョントランスフォーマーは、しばしば浅いものよりもパフォーマンスが悪く、一般的なスケーリング仮定に挑戦する。
ImageNet 上での ViT-S, ViT-B, ViT-L の系統的経験分析により, 表現の深度変化を制御した一貫した三相Cliff-Plateau-Climb パターンを同定した。
より優れた性能は、パッチトークン間の分散コンセンサスを支持するために、もともとグローバルアグリゲーションハブとして設計された[CLS]トークンのプログレッシブ・ラウンダリゼーションと関連している。
Information Scrambling Indexと混在する情報のパターンを定量化し、ViT-Lでは、情報タスクトレードオフがViT-Bよりも約10層遅れて出現し、これらの追加レイヤはタスク性能の向上よりも情報拡散の増大と相関していることを示す。
これらの結果から, パラメータ数の増加よりも, 清浄な位相遷移を実行する深さを慎重に調整することで, トランスフォーマーアーキテクチャの恩恵を受ける可能性が示唆された。
Information Scrambling Indexは、既存のモデルに有用な診断を提供し、将来のアーキテクチャの潜在的な設計ターゲットを提案する。
すべてのコードは、https://github.com/AnanthaPadmanaban-KrishnaKumar/Cliff-Plateau-Climbで入手できる。
関連論文リスト
- High-Fidelity Differential-information Driven Binary Vision Transformer [38.19452875887032]
ビジョントランスフォーマーのバイナリ化(ViT)は、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約の間のトレードオフに対処する、有望なアプローチを提供する。
本稿では,従来の ViT アーキテクチャと計算効率を両立させながら,高情報化が可能な新しいバイナリ ViT である DIDB-ViT を提案する。
論文 参考訳(メタデータ) (2025-07-03T00:59:53Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。