論文の概要: Estimating the Effective Rank of Vision Transformers via Low-Rank Factorization
- arxiv url: http://arxiv.org/abs/2512.00792v1
- Date: Sun, 30 Nov 2025 09:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.423037
- Title: Estimating the Effective Rank of Vision Transformers via Low-Rank Factorization
- Title(参考訳): 低ランク因子化による視覚変換器の有効ランク推定
- Authors: Liyu Zerihun,
- Abstract要約: 学習された表現をモデルの全容量の低ランク部分空間への射影として扱うことにより、モデルの本質的な次元を推定する。
我々は、フルランクの教師を訓練し、その重みを複数のランクで分解し、各因子化した学生を蒸留により訓練し、ランクの関数として性能を測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep networks are heavily over-parameterized, yet their learned representations often admit low-rank structure. We introduce a framework for estimating a model's intrinsic dimensionality by treating learned representations as projections onto a low-rank subspace of the model's full capacity. Our approach: train a full-rank teacher, factorize its weights at multiple ranks, and train each factorized student via distillation to measure performance as a function of rank. We define effective rank as a region, not a point: the smallest contiguous set of ranks for which the student reaches 85-95% of teacher accuracy. To stabilize estimates, we fit accuracy vs. rank with a monotone PCHIP interpolant and identify crossings of the normalized curve. We also define the effective knee as the rank maximizing perpendicular distance between the smoothed accuracy curve and its endpoint secant; an intrinsic indicator of where marginal gains concentrate. On ViT-B/32 fine-tuned on CIFAR-100 (one seed, due to compute constraints), factorizing linear blocks and training with distillation yields an effective-rank region of approximately [16, 34] and an effective knee at r* ~ 31. At rank 32, the student attains 69.46% top-1 accuracy vs. 73.35% for the teacher (~94.7% of baseline) while achieving substantial parameter compression. We provide a framework to estimate effective-rank regions and knees across architectures and datasets, offering a practical tool for characterizing the intrinsic dimensionality of deep models.
- Abstract(参考訳): 深層ネットワークは過度にパラメータ化されているが、それらの学習された表現は低ランク構造を持つことが多い。
本稿では,学習された表現をモデルの全容量の低ランク部分空間への射影として扱うことにより,モデル固有の次元を推定するためのフレームワークを提案する。
我々のアプローチは、フルランクの教師を訓練し、その重みを複数のランクで分解し、それぞれの因子を蒸留して、ランクの関数としてのパフォーマンスを測定することである。
我々は,有効ランクを,一点ではなく地域として定義する: 学生が85~95%の精度に達する最小の連続ランク集合である。
推定値の安定化のために,単調なPCHIP補間器に精度対ランクを合わせ,正規化曲線の交差を同定する。
また,実効膝を,スムーズな精度曲線と終端セカントとの垂直距離を最大化するランクとして定義する。
CIFAR-100で微調整されたViT-B/32(計算制約により1種)では、線形ブロックを分解し、蒸留によるトレーニングにより、約 [16, 34] の有効ランク領域と、r* ~ 31の有効膝が得られる。
32位では、生徒は69.46%、教師は73.35%(ベースラインの約94.7%)の精度を達成し、かなりのパラメータ圧縮を達成している。
我々は、アーキテクチャやデータセットにまたがる有効ランクの領域とひざを推定するフレームワークを提供し、深層モデルの本質的な次元を特徴づける実用的なツールを提供する。
関連論文リスト
- SRKD: Towards Efficient 3D Point Cloud Segmentation via Structure- and Relation-aware Knowledge Distillation [25.38025028623991]
3Dポイントクラウドセグメンテーションは、大規模トランスフォーマーベースのモデルの計算複雑性とデプロイメント制限のため、現実的な課題に直面している。
SRKDと呼ばれる新しい構造と関係を意識した知識蒸留フレームワークを提案する。このフレームワークは、リッチな幾何学的および意味的な知識を、大きな凍結教師モデルから軽量の学生モデルに伝達する。
提案手法は,実世界の展開シナリオにおいて,モデル複雑性を大幅に低減し,その有効性と効率を実証する。
論文 参考訳(メタデータ) (2025-06-16T07:32:58Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - RankFeat&RankWeight: Rank-1 Feature/Weight Removal for Out-of-distribution Detection [66.27699658243391]
textttRankFeatは、OOD検出のためのシンプルだが効果的なEmphposthocアプローチである。
textttRankWeight は emphpost hoc で、 rank-1 行列を一度だけ計算する必要がある。
textttRankFeatは、最先端のパフォーマンスを実現し、平均偽陽性率(FPR95)を17.90%削減する。
論文 参考訳(メタデータ) (2023-11-23T12:17:45Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。