論文の概要: RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer
- arxiv url: http://arxiv.org/abs/2304.05659v1
- Date: Wed, 12 Apr 2023 07:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 15:47:30.399284
- Title: RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer
- Title(参考訳): RIFormer:Token Mixerを外しながらビジョンバックボーンを効果的に保つ
- Authors: Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui
Liu, Kai Chen, Ping Luo, Dahua Lin
- Abstract要約: 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
- 参考スコア(独自算出の注目度): 95.71132572688143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how to keep a vision backbone effective while removing
token mixers in its basic building blocks. Token mixers, as self-attention for
vision transformers (ViTs), are intended to perform information communication
between different spatial tokens but suffer from considerable computational
cost and latency. However, directly removing them will lead to an incomplete
model structure prior, and thus brings a significant accuracy drop. To this
end, we first develop an RepIdentityFormer base on the re-parameterizing idea,
to study the token mixer free model architecture. And we then explore the
improved learning paradigm to break the limitation of simple token mixer free
backbone, and summarize the empirical practice into 5 guidelines. Equipped with
the proposed optimization strategy, we are able to build an extremely simple
vision backbone with encouraging performance, while enjoying the high
efficiency during inference. Extensive experiments and ablative analysis also
demonstrate that the inductive bias of network architecture, can be
incorporated into simple network structure with appropriate optimization
strategy. We hope this work can serve as a starting point for the exploration
of optimization-driven efficient network design. Project page:
https://techmonsterwang.github.io/RIFormer/.
- Abstract(参考訳): 本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己注意としてのトークンミキサーは、異なる空間トークン間の情報通信を意図しているが、かなりの計算コストと遅延に悩まされている。
しかし、それらを直接取り除くと、以前に不完全なモデル構造になり、その結果、かなりの精度が低下する。
そこで我々はまず,トークンミキサーフリーモデルアーキテクチャの研究のために,再パラメータ化アイデアに基づくRepIdentityFormerベースを開発する。
そして、改良された学習パラダイムを探求し、単純なトークンミキサーフリーバックボーンの制限を破り、経験的実践を5つのガイドラインにまとめる。
提案した最適化戦略により、推論時に高い効率を享受しながら、性能を向上する非常に単純なビジョンバックボーンを構築することができる。
広範な実験とアブレイティブ解析は、ネットワークアーキテクチャの帰納的バイアスを適切な最適化戦略で単純なネットワーク構造に組み込むことができることを示した。
この作業が、最適化駆動の効率的なネットワーク設計の出発点になることを期待しています。
プロジェクトページ: https://techmonsterwang.github.io/riformer/
関連論文リスト
- Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning [54.956037293979506]
本論文は、視覚バックボーンと視覚バックボーンの相互作用と、その相互依存現象であるtextittextbfbackbonetextbfoptimizer textbfcoupling textbfbias (BOCB) について述べる。
我々は、VGGやResNetのような標準CNNがSGDファミリとの顕著な共存を示すのに対し、ViTsやConvNeXtといった最近のアーキテクチャは適応学習率と密接な結合性を持っていることを観察する。
論文 参考訳(メタデータ) (2024-10-08T21:14:23Z) - PRANCE: Joint Token-Optimization and Structural Channel-Pruning for Adaptive ViT Inference [44.77064952091458]
PRANCEはVision Transformer圧縮フレームワークで、アクティベートされたチャネルを共同で最適化し、入力の特性に基づいてトークンを削減する。
本稿では,ViTの推論過程を逐次決定プロセスとしてモデル化する,新しい「結果と結果」学習機構を提案する。
我々のフレームワークは、プルーニング、マージング、プルーニングマージングといった様々なトークン最適化手法と互換性があることが示されている。
論文 参考訳(メタデータ) (2024-07-06T09:04:27Z) - Neural Network Pruning by Gradient Descent [7.427858344638741]
我々は,Gumbel-Softmaxテクニックを取り入れた,新しい,かつ簡単なニューラルネットワークプルーニングフレームワークを提案する。
ネットワークパラメータの0.15%しか持たないMNISTデータセット上で、高い精度を維持しながら、例外的な圧縮能力を実証する。
我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。
論文 参考訳(メタデータ) (2023-11-21T11:12:03Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Multi-Agent Feedback Enabled Neural Networks for Intelligent
Communications [28.723523146324002]
本稿では,新しいマルチエージェントフィードバック対応ニューラルネットワーク(MAFENN)フレームワークを提案する。
MAFENNフレームワークは理論的には3人プレイのFeedback Stackelbergゲームに定式化され、このゲームはFeedback Stackelberg平衡に収束することが証明される。
無線通信におけるMAFENNフレームワークの実現可能性を検証するため,マルチエージェントMAFENNベースの等化器(MAFENN-E)を開発した。
論文 参考訳(メタデータ) (2022-05-22T05:28:43Z) - Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking [69.08903927311283]
既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。
本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T12:20:58Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。