論文の概要: ParameterNet: Parameters Are All You Need
- arxiv url: http://arxiv.org/abs/2306.14525v2
- Date: Sun, 14 Jan 2024 12:20:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:22:04.608609
- Title: ParameterNet: Parameters Are All You Need
- Title(参考訳): ParameterNet:パラメータがすべて必要である
- Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Enhua Wu
- Abstract要約: 本稿では,大規模視覚前訓練モデルにおいて,パラメータ数を増やすことを目的とした新しい設計原理であるNetを紹介する。
動的畳み込みを利用して、FLOPをわずかに増加させるだけで、追加のパラメータをネットワークに組み込む。
Netアプローチにより、低FLOPネットワークは大規模な視覚前訓練を利用することができる。
- 参考スコア(独自算出の注目度): 50.150436250355945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large-scale visual pretraining has significantly improve the performance
of large vision models. However, we observe the \emph{low FLOPs pitfall} that
the existing low-FLOPs models cannot benefit from large-scale pretraining. In
this paper, we introduce a novel design principle, termed ParameterNet, aimed
at augmenting the number of parameters in large-scale visual pretraining models
while minimizing the increase in FLOPs. We leverage dynamic convolutions to
incorporate additional parameters into the networks with only a marginal rise
in FLOPs. The ParameterNet approach allows low-FLOPs networks to take advantage
of large-scale visual pretraining. Furthermore, we extend the ParameterNet
concept to the language domain to enhance inference results while preserving
inference speed. Experiments on the large-scale ImageNet-22K have shown the
superiority of our ParameterNet scheme. For example, ParameterNet-600M can
achieve higher accuracy on ImageNet than the widely-used Swin Transformer
(81.6\% \emph{vs.} 80.9\%) and has much lower FLOPs (0.6G \emph{vs.} 4.5G). In
the language domain, LLaMA-1B enhanced with ParameterNet achieves 2\% higher
accuracy over vanilla LLaMA. The code will be released at
\url{https://parameternet.github.io/}.
- Abstract(参考訳): 大規模視覚前訓練は、大規模視覚モデルの性能を大幅に向上させる。
しかし、既存の低FLOPsモデルでは大規模な事前学習の恩恵を受けられないという「emph{low FLOPs pitfall」を観察する。
本稿では,大規模視覚前訓練モデルのパラメータ数を増加させながらフラップの増加を最小限に抑えることを目的とした,parameternetと呼ばれる新しい設計原理を提案する。
我々は動的畳み込みを利用して,フラップの限界上昇のみを伴い,ネットワークに追加パラメータを組み込む。
parameternetアプローチにより、低flopsネットワークは大規模なビジュアルプリトレーニングを活用できる。
さらに,パラメータネットの概念を言語領域に拡張し,推論速度を保ちながら推論結果を向上する。
大規模imagenet-22k実験では,パラメータネットスキームの優位性が示された。
たとえばパラメータNet-600Mは、広く使われているSwin Transformer(81.6\% \emph{vs)よりもImageNetの方が精度が高い。
80.9\%) であり、より低いフロップ(0.6g \emph{vs)を持つ。
4.5g)である。
言語領域では、パラメータNetで強化されたLLaMA-1Bは、バニラLLaMAよりも2倍高い精度を達成する。
コードは \url{https://parameternet.github.io/} でリリースされる。
関連論文リスト
- LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文 参考訳(メタデータ) (2024-05-25T15:56:15Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Pretraining a Neural Network before Knowing Its Architecture [2.170169149901781]
大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。
最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。
予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
論文 参考訳(メタデータ) (2022-07-20T17:27:50Z) - Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。
私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。
私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文 参考訳(メタデータ) (2021-07-25T14:44:24Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。