論文の概要: RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer
- arxiv url: http://arxiv.org/abs/2304.05659v1
- Date: Wed, 12 Apr 2023 07:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 15:47:30.399284
- Title: RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer
- Title(参考訳): RIFormer:Token Mixerを外しながらビジョンバックボーンを効果的に保つ
- Authors: Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui
Liu, Kai Chen, Ping Luo, Dahua Lin
- Abstract要約: 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
- 参考スコア(独自算出の注目度): 95.71132572688143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how to keep a vision backbone effective while removing
token mixers in its basic building blocks. Token mixers, as self-attention for
vision transformers (ViTs), are intended to perform information communication
between different spatial tokens but suffer from considerable computational
cost and latency. However, directly removing them will lead to an incomplete
model structure prior, and thus brings a significant accuracy drop. To this
end, we first develop an RepIdentityFormer base on the re-parameterizing idea,
to study the token mixer free model architecture. And we then explore the
improved learning paradigm to break the limitation of simple token mixer free
backbone, and summarize the empirical practice into 5 guidelines. Equipped with
the proposed optimization strategy, we are able to build an extremely simple
vision backbone with encouraging performance, while enjoying the high
efficiency during inference. Extensive experiments and ablative analysis also
demonstrate that the inductive bias of network architecture, can be
incorporated into simple network structure with appropriate optimization
strategy. We hope this work can serve as a starting point for the exploration
of optimization-driven efficient network design. Project page:
https://techmonsterwang.github.io/RIFormer/.
- Abstract(参考訳): 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己注意としてのトークンミキサーは、異なる空間トークン間の情報通信を意図しているが、かなりの計算コストと遅延に悩まされている。
しかし、それらを直接取り除くと、以前に不完全なモデル構造になり、その結果、かなりの精度が低下する。
そこで我々はまず,トークンミキサーフリーモデルアーキテクチャの研究のために,再パラメータ化アイデアに基づくRepIdentityFormerベースを開発する。
そして、改良された学習パラダイムを探求し、単純なトークンミキサーフリーバックボーンの制限を破り、経験的実践を5つのガイドラインにまとめる。
提案した最適化戦略により、推論時に高い効率を享受しながら、性能を向上する非常に単純なビジョンバックボーンを構築することができる。
広範な実験とアブレイティブ解析は、ネットワークアーキテクチャの帰納的バイアスを適切な最適化戦略で単純なネットワーク構造に組み込むことができることを示した。
この作業が、最適化駆動の効率的なネットワーク設計の出発点になることを期待しています。
プロジェクトページ: https://techmonsterwang.github.io/riformer/
関連論文リスト
- Neural Network Pruning by Gradient Descent [7.427858344638741]
我々は,Gumbel-Softmaxテクニックを取り入れた,新しい,かつ簡単なニューラルネットワークプルーニングフレームワークを提案する。
ネットワークパラメータの0.15%しか持たないMNISTデータセット上で、高い精度を維持しながら、例外的な圧縮能力を実証する。
我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。
論文 参考訳(メタデータ) (2023-11-21T11:12:03Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Guided Hybrid Quantization for Object detection in Multimodal Remote
Sensing Imagery via One-to-one Self-teaching [35.316067181895264]
本稿では,1対1の自己学習(GHOST)フレームワークを用いたハイブリッド量子化手法を提案する。
まず, 導電性量子化自己蒸留(GQSD)と呼ばれる構造を設計する。
第3に、情報変換を改善するために、学生ネットワークに自己判断能力を与える1対1の自己学習モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-31T06:14:59Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Multi-Agent Feedback Enabled Neural Networks for Intelligent
Communications [28.723523146324002]
本稿では,新しいマルチエージェントフィードバック対応ニューラルネットワーク(MAFENN)フレームワークを提案する。
MAFENNフレームワークは理論的には3人プレイのFeedback Stackelbergゲームに定式化され、このゲームはFeedback Stackelberg平衡に収束することが証明される。
無線通信におけるMAFENNフレームワークの実現可能性を検証するため,マルチエージェントMAFENNベースの等化器(MAFENN-E)を開発した。
論文 参考訳(メタデータ) (2022-05-22T05:28:43Z) - Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking [69.08903927311283]
既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。
本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T12:20:58Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。