論文の概要: ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models
- arxiv url: http://arxiv.org/abs/2504.00037v1
- Date: Sun, 30 Mar 2025 15:35:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.425999
- Title: ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models
- Title(参考訳): ViT-Linearizer:2次知識を線形時間視覚モデルに拡張する
- Authors: Guoyizhe Wei, Rama Chellappa,
- Abstract要約: 視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
- 参考スコア(独自算出の注目度): 39.520825264698374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have delivered remarkable progress through global self-attention, yet their quadratic complexity can become prohibitive for high-resolution inputs. In this work, we present ViT-Linearizer, a cross-architecture distillation framework that transfers rich ViT representations into a linear-time, recurrent-style model. Our approach leverages 1) activation matching, an intermediate constraint that encourages student to align its token-wise dependencies with those produced by the teacher, and 2) masked prediction, a contextual reconstruction objective that requires the student to predict the teacher's representations for unseen (masked) tokens, to effectively distill the quadratic self-attention knowledge into the student while maintaining efficient complexity. Empirically, our method provides notable speedups particularly for high-resolution tasks, significantly addressing the hardware challenges in inference. Additionally, it also elevates Mamba-based architectures' performance on standard vision benchmarks, achieving a competitive 84.3% top-1 accuracy on ImageNet with a base-sized model. Our results underscore the good potential of RNN-based solutions for large-scale visual tasks, bridging the gap between theoretical efficiency and real-world practice.
- Abstract(参考訳): 視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では,リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
私たちのアプローチは
1)アクティベーションマッチング(アクティベーションマッチング)とは、学生がトークン単位の依存関係を教師が生み出したものと整合させることを促す中間的制約である。
2) 隠蔽予測は,教師の無意味なトークンの表現を予測し,2次自己意識の知識を学生に効果的に蒸留し,効率のよい複雑さを保ちながら,教師の表現を予測することを必要とする文脈的再構築の目的である。
提案手法は,特に高分解能タスクにおいて顕著な高速化を実現し,推論におけるハードウェア上の課題に対処する。
さらに、標準的なビジョンベンチマーク上でのMambaベースのアーキテクチャのパフォーマンスも向上し、ベースサイズのモデルでImageNet上で84.3%のトップ-1の精度を達成した。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文 参考訳(メタデータ) (2024-10-14T08:21:00Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Unsupervised Object-Centric Learning with Bi-Level Optimized Query Slot
Attention [26.25900877220557]
Slot-Attentionモジュールはシンプルだが効果的な設計で重要な役割を担い、多くの強力な変種を育ててきた。
本稿では、学習可能なクエリでSlot-Attentionモジュールを初期化し、(2)バイレベル最適化でモデルを最適化することで、これらの問題を解決することを提案する。
本モデルでは、教師なし画像分割と再構成において、合成と複雑な実世界の両方のデータセットに対して最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-10-17T12:14:59Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Interpretable Neural Computation for Real-World Compositional Visual
Question Answering [4.3668650778541895]
実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-10T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。