論文の概要: Stitched ViTs are Flexible Vision Backbones
- arxiv url: http://arxiv.org/abs/2307.00154v1
- Date: Fri, 30 Jun 2023 22:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:41:09.316415
- Title: Stitched ViTs are Flexible Vision Backbones
- Title(参考訳): ViTはフレキシブルなビジョンバックボーン
- Authors: Zizheng Pan, Jing Liu, Haoyu He, Jianfei Cai, Bohan Zhuang
- Abstract要約: これは、トレーニング済みのモデルファミリーを縫い合わせることで、リッチワークをカバーする単一のモデルを生成する新しいフレームワークです。
我々は、下流タスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークSN-Netv2を紹介する。
- 参考スコア(独自算出の注目度): 40.002608785252164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pretrained plain vision Transformers (ViTs) have been the workhorse for
many downstream tasks. However, existing works utilizing off-the-shelf ViTs are
inefficient in terms of training and deployment, because adopting ViTs with
individual sizes requires separate training and is restricted by fixed
performance-efficiency trade-offs. In this paper, we are inspired by stitchable
neural networks, which is a new framework that cheaply produces a single model
that covers rich subnetworks by stitching pretrained model families, supporting
diverse performance-efficiency trade-offs at runtime. Building upon this
foundation, we introduce SN-Netv2, a systematically improved model stitching
framework to facilitate downstream task adaptation. Specifically, we first
propose a Two-way stitching scheme to enlarge the stitching space. We then
design a resource-constrained sampling strategy that takes into account the
underlying FLOPs distributions in the space for improved sampling. Finally, we
observe that learning stitching layers is a low-rank update, which plays an
essential role on downstream tasks to stabilize training and ensure a good
Pareto frontier. With extensive experiments on ImageNet-1K, ADE20K,
COCO-Stuff-10K, NYUv2 and COCO-2017, SN-Netv2 demonstrates strong ability to
serve as a flexible vision backbone, achieving great advantages in both
training efficiency and adaptation. Code will be released at
https://github.com/ziplab/SN-Netv2.
- Abstract(参考訳): 大きな事前訓練されたプレーンビジョントランスフォーマー(vits)は多くの下流タスクの作業馬であった。
しかし、個々のサイズのViTを採用するには個別のトレーニングが必要であり、一定のパフォーマンス効率のトレードオフによって制限されるため、既製のViTを使用する既存の作業は、トレーニングとデプロイメントの面で非効率である。
本稿では,事前学習したモデルファミリを縫い合わせることで,リッチサブネットワークをカバーする1つのモデルを安価に作成する新フレームワークであるstitchable neural networksに着想を得た。
この基盤の上に構築されたSN-Netv2は、ダウンストリームタスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークである。
具体的には,縫合空間を拡大する2方向縫合法を提案する。
次に,資源制約付きサンプリング戦略を設計し,その基盤となるFLOP分布を考慮し,サンプリングの改善を図る。
最後に,ステッチ層の学習は低ランク更新であり,ダウンストリームタスクにおいて重要な役割を担い,トレーニングを安定させ,適切なparetoフロンティアを確保する。
ImageNet-1K、ADE20K、COCO-Stuff-10K、NYUv2、COCO-2017の広範な実験により、SN-Netv2は柔軟なビジョンバックボーンとして機能する強力な能力を示し、トレーニング効率と適応の両方において大きな利点を享受している。
コードはhttps://github.com/ziplab/sn-netv2でリリースされる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Continual Learning: Forget-free Winning Subnetworks for Video Representations [75.40220771931132]
タスク性能の面でのサブネットワーク(WSN)の勝利は、様々な連続学習タスクに対して考慮される。
タスクインクリメンタルラーニング(TIL)とタスク非依存インクリメンタルラーニング(TaIL)のシナリオにおいて,既存のネットワークからの重み付けを活用して,効率的な学習を実現する。
ビデオインクリメンタルラーニング(VIL)におけるWSN内のフーリエサブニューラル演算子(FSO)の利用
論文 参考訳(メタデータ) (2023-12-19T09:11:49Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。