論文の概要: From Low-Rank Features to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers
- arxiv url: http://arxiv.org/abs/2511.15572v1
- Date: Wed, 19 Nov 2025 16:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.888203
- Title: From Low-Rank Features to Encoding Mismatch: Rethinking Feature Distillation in Vision Transformers
- Title(参考訳): 低ランク特徴からミストマッチの符号化へ:視覚変換器の機能拡張を再考する
- Authors: Huiyuan Tian, Bonan Xu, Shijian Li, Xin Jin,
- Abstract要約: 低ランク構造の利用がいかに効果的で、解釈可能な修復と、コンパクトな視覚変換器のための具体的な設計指導をもたらすかを示す。
そこで本研究では,ViTの特性蒸留が失敗する理由を考察し,低ランク構造の利用が,コンパクトなViTの有効性,解釈可能な改善策,具体的な設計指針を示す。
- 参考スコア(独自算出の注目度): 10.934231723603787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature-map knowledge distillation (KD) is highly effective for convolutional networks but often fails for Vision Transformers (ViTs). To understand this failure and guide method design, we conduct a two-view representation analysis of ViTs. First, a layer-wise Singular Value Decomposition (SVD) of full feature matrices shows that final-layer representations are globally low-rank: for CaiT-S24, only $121/61/34/14$ dimensions suffice to capture $99\%/95\%/90\%/80\%$ of the energy. In principle, this suggests that a compact student plus a simple linear projector should be enough for feature alignment, contradicting the weak empirical performance of standard feature KD. To resolve this paradox, we introduce a token-level Spectral Energy Pattern (SEP) analysis that measures how each token uses channel capacity. SEP reveals that, despite the global low-rank structure, individual tokens distribute energy over most channels, forming a high-bandwidth encoding pattern. This results in an encoding mismatch between wide teachers and narrow students. Motivated by this insight, we propose two minimal, mismatch-driven strategies: (1) post-hoc feature lifting with a lightweight projector retained during inference, or (2) native width alignment that widens only the student's last block to the teacher's width. On ImageNet-1K, these strategies reactivate simple feature-map distillation in ViTs, raising DeiT-Tiny accuracy from $74.86\%$ to $77.53\%$ and $78.23\%$ when distilling from CaiT-S24, while also improving standalone students trained without any teacher. Our analysis thus explains why ViT feature distillation fails and shows how exploiting low-rank structure yields effective, interpretable remedies and concrete design guidance for compact ViTs.
- Abstract(参考訳): 特徴マップ知識蒸留(KD)は畳み込みネットワークにおいて非常に有効であるが、視覚変換器(ViT)ではしばしば失敗する。
この失敗を理解するために、我々はViTの2視点表現解析を行う。
CaiT-S24では121/61/34/14$次元だけで99\%/95\%/90\%/80\%のエネルギーを得られる。
原理的には、コンパクトな学生と単純な線形プロジェクタは、標準特徴KDの弱い経験的性能に反する特徴アライメントに十分であるべきである。
このパラドックスを解決するために、各トークンがどのようにチャネル容量を使用するかを測定するトークンレベルのスペクトルエネルギーパターン(SEP)分析を導入する。
SEPは、グローバルな低ランク構造にもかかわらず、個々のトークンがほとんどのチャネルにエネルギーを分散し、高い帯域幅の符号化パターンを形成することを明らかにした。
これにより、幅広い教師と狭い学生のコーディングミスマッチが生じる。
本研究の目的は,(1)投射中も軽量プロジェクタで持ち上げるポストホック機能,(2)学生の最後のブロックのみを教師の幅まで広げるネイティブ幅アライメント,という2つの最小限のミスマッチ駆動戦略を提案することである。
ImageNet-1K では、これらの戦略は ViT における単純な特徴マップの蒸留を再活性化し、DeiT-Tiny の精度を 747.86 % から 77.53 % に引き上げ、CaiT-S24 から蒸留すると 787.23 % に引き上げるとともに、教師なしで訓練されたスタンドアローンの学生も改善した。
そこで本研究では,ViTの特性蒸留が失敗する理由を考察し,低ランク構造の利用が,コンパクトなViTの有効性,解釈可能な改善策,具体的な設計指針を示す。
関連論文リスト
- Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers [4.712287472749922]
蒸留力学」と呼ばれる新しい分析枠組みを通じて、この現象を包括的に分析する。
特徴蒸留における負の伝達の根本原因を,教師と学生のモデル間の基本的な表現パラダイムのミスマッチと同定する。
この結果から,ViTsにおける知識伝達の成功には,これらの基本的表現制約を尊重する手法へのナイーブな特徴模倣を超越する必要があることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-10T08:46:30Z) - FEDS: Feature and Entropy-Based Distillation Strategy for Efficient Learned Image Compression [12.280695635625737]
学習画像圧縮(lic)法は、最近、速度歪み性能においてVVCなどの従来のコーデックよりも優れている。
本稿では,まず,Swin-Transformer V2ベースのアテンションモジュールを統合することで,高容量教師モデルを構築する。
次に、教師から軽量の学生モデルに重要な知識を伝達するアンダーラインFeatureとアンダーラインEntropyベースのアンダーラインDistillation underlineStrategy(textbfFEDS)を提案する。
論文 参考訳(メタデータ) (2025-03-09T02:39:39Z) - Slicing Vision Transformer for Flexible Inference [79.35046907288518]
一つのネットワークが複数の小さな ViT を表現できるように,Scala という名前の汎用フレームワークを提案する。
S Scalaは、パラメータが少ないImageNet-1Kで平均1.6%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T05:31:42Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。