論文の概要: ParameterNet: Parameters Are All You Need for Large-scale Visual
Pretraining of Mobile Networks
- arxiv url: http://arxiv.org/abs/2306.14525v1
- Date: Mon, 26 Jun 2023 09:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:26:29.396978
- Title: ParameterNet: Parameters Are All You Need for Large-scale Visual
Pretraining of Mobile Networks
- Title(参考訳): パラメータネット:モバイルネットワークの大規模ビジュアル事前学習に必要なパラメータ
- Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Enhua Wu
- Abstract要約: 大規模視覚前訓練のためのFLOPを小さく保ちながらパラメータを増やそうとする一般的な設計原理を提案する。
提案手法により,低FLOPネットワークを大規模視覚前訓練の恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 44.58464361514883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale visual pretraining has significantly improve the performance
of large vision models. However, we observe the \emph{low FLOPs pitfall} that
the existing low-FLOPs models cannot benefit from large-scale pretraining.
In this paper, we propose a general design principle of adding more
parameters while maintaining low FLOPs for large-scale visual pretraining,
named as ParameterNet. Dynamic convolutions are used for instance to equip the
networks with more parameters and only slightly increase the FLOPs. The
proposed ParameterNet scheme enables low-FLOPs networks to benefit from
large-scale visual pretraining. Experiments on the large-scale ImageNet-22K
have shown the superiority of our ParameterNet scheme. For example,
ParameterNet-600M can achieve higher accuracy than the widely-used Swin
Transformer (81.6\% \emph{vs.} 80.9\%) and has much lower FLOPs (0.6G
\emph{vs.} 4.5G). The code will be released as soon (MindSpore:
https://gitee.com/mindspore/models, PyTorch:
https://github.com/huawei-noah/Efficient-AI-Backbones).
- Abstract(参考訳): 大規模視覚前訓練は、大規模視覚モデルの性能を大幅に向上させる。
しかし、既存の低FLOPsモデルでは大規模な事前学習の恩恵を受けられないという「emph{low FLOPs pitfall」を観察する。
本稿では,パラメータネットと呼ばれる大規模視覚前訓練のための低フロップを維持しつつ,より多くのパラメータを追加する一般的な設計原理を提案する。
動的畳み込みは、ネットワークにより多くのパラメータを割り当て、FLOPをわずかに増やすのに使われる。
提案手法により,低FLOPネットワークを大規模視覚前訓練の恩恵を受けることができる。
大規模imagenet-22k実験では,パラメータネットスキームの優位性が示された。
たとえばパラメータNet-600Mは広く使われているSwin Transformer(81.6\% \emph{vs)よりも精度が高い。
80.9\%) であり、より低いフロップ(0.6g \emph{vs)を持つ。
4.5g)である。
コードはすぐにリリースされる(MindSpore: https://gitee.com/mindspore/models, PyTorch: https://github.com/huawei-noah/Efficient-AI-Backbones)。
関連論文リスト
- HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Models [46.58122934173729]
textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
論文 参考訳(メタデータ) (2024-02-27T11:05:34Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Pretraining a Neural Network before Knowing Its Architecture [2.170169149901781]
大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。
最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。
予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
論文 参考訳(メタデータ) (2022-07-20T17:27:50Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。