論文の概要: ParameterNet: Parameters Are All You Need
- arxiv url: http://arxiv.org/abs/2306.14525v2
- Date: Sun, 14 Jan 2024 12:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:22:04.608609
- Title: ParameterNet: Parameters Are All You Need
- Title(参考訳): ParameterNet:パラメータがすべて必要である
- Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Enhua Wu
- Abstract要約: 本稿では,大規模視覚前訓練モデルにおいて,パラメータ数を増やすことを目的とした新しい設計原理であるNetを紹介する。
動的畳み込みを利用して、FLOPをわずかに増加させるだけで、追加のパラメータをネットワークに組み込む。
Netアプローチにより、低FLOPネットワークは大規模な視覚前訓練を利用することができる。
- 参考スコア(独自算出の注目度): 50.150436250355945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale visual pretraining has significantly improve the performance
of large vision models. However, we observe the \emph{low FLOPs pitfall} that
the existing low-FLOPs models cannot benefit from large-scale pretraining. In
this paper, we introduce a novel design principle, termed ParameterNet, aimed
at augmenting the number of parameters in large-scale visual pretraining models
while minimizing the increase in FLOPs. We leverage dynamic convolutions to
incorporate additional parameters into the networks with only a marginal rise
in FLOPs. The ParameterNet approach allows low-FLOPs networks to take advantage
of large-scale visual pretraining. Furthermore, we extend the ParameterNet
concept to the language domain to enhance inference results while preserving
inference speed. Experiments on the large-scale ImageNet-22K have shown the
superiority of our ParameterNet scheme. For example, ParameterNet-600M can
achieve higher accuracy on ImageNet than the widely-used Swin Transformer
(81.6\% \emph{vs.} 80.9\%) and has much lower FLOPs (0.6G \emph{vs.} 4.5G). In
the language domain, LLaMA-1B enhanced with ParameterNet achieves 2\% higher
accuracy over vanilla LLaMA. The code will be released at
\url{https://parameternet.github.io/}.
- Abstract(参考訳): 大規模視覚前訓練は、大規模視覚モデルの性能を大幅に向上させる。
しかし、既存の低FLOPsモデルでは大規模な事前学習の恩恵を受けられないという「emph{low FLOPs pitfall」を観察する。
本稿では,大規模視覚前訓練モデルのパラメータ数を増加させながらフラップの増加を最小限に抑えることを目的とした,parameternetと呼ばれる新しい設計原理を提案する。
我々は動的畳み込みを利用して,フラップの限界上昇のみを伴い,ネットワークに追加パラメータを組み込む。
parameternetアプローチにより、低flopsネットワークは大規模なビジュアルプリトレーニングを活用できる。
さらに,パラメータネットの概念を言語領域に拡張し,推論速度を保ちながら推論結果を向上する。
大規模imagenet-22k実験では,パラメータネットスキームの優位性が示された。
たとえばパラメータNet-600Mは、広く使われているSwin Transformer(81.6\% \emph{vs)よりもImageNetの方が精度が高い。
80.9\%) であり、より低いフロップ(0.6g \emph{vs)を持つ。
4.5g)である。
言語領域では、パラメータNetで強化されたLLaMA-1Bは、バニラLLaMAよりも2倍高い精度を達成する。
コードは \url{https://parameternet.github.io/} でリリースされる。
関連論文リスト
- HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Models [46.58122934173729]
textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
論文 参考訳(メタデータ) (2024-02-27T11:05:34Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale [5.759319006531332]
マスク付き言語モデリング(MLM)を用いた事前学習の利点を1.25Mパラメータのモデルで示す。
スケール法則を100Mパラメータのモデルに拡張し,ダウンスケーリング効果について検討する。
論文 参考訳(メタデータ) (2023-05-26T21:22:10Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Pretraining a Neural Network before Knowing Its Architecture [2.170169149901781]
大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。
最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。
予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
論文 参考訳(メタデータ) (2022-07-20T17:27:50Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。