Fugu-MT 論文翻訳(概要): ParameterNet: Parameters Are All You Need for Large-scale Visual Pretraining of Mobile Networks

論文の概要: ParameterNet: Parameters Are All You Need for Large-scale Visual Pretraining of Mobile Networks

arxiv url: http://arxiv.org/abs/2306.14525v1
Date: Mon, 26 Jun 2023 09:01:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-27 14:26:29.396978
Title: ParameterNet: Parameters Are All You Need for Large-scale Visual Pretraining of Mobile Networks
Title（参考訳）: パラメータネット:モバイルネットワークの大規模ビジュアル事前学習に必要なパラメータ
Authors: Kai Han, Yunhe Wang, Jianyuan Guo, Enhua Wu
Abstract要約: 大規模視覚前訓練のためのFLOPを小さく保ちながらパラメータを増やそうとする一般的な設計原理を提案する。提案手法により,低FLOPネットワークを大規模視覚前訓練の恩恵を受けることができる。
参考スコア（独自算出の注目度）: 44.58464361514883
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The large-scale visual pretraining has significantly improve the performance of large vision models. However, we observe the \emph{low FLOPs pitfall} that the existing low-FLOPs models cannot benefit from large-scale pretraining. In this paper, we propose a general design principle of adding more parameters while maintaining low FLOPs for large-scale visual pretraining, named as ParameterNet. Dynamic convolutions are used for instance to equip the networks with more parameters and only slightly increase the FLOPs. The proposed ParameterNet scheme enables low-FLOPs networks to benefit from large-scale visual pretraining. Experiments on the large-scale ImageNet-22K have shown the superiority of our ParameterNet scheme. For example, ParameterNet-600M can achieve higher accuracy than the widely-used Swin Transformer (81.6\% \emph{vs.} 80.9\%) and has much lower FLOPs (0.6G \emph{vs.} 4.5G). The code will be released as soon (MindSpore: https://gitee.com/mindspore/models, PyTorch: https://github.com/huawei-noah/Efficient-AI-Backbones).
Abstract（参考訳）: 大規模視覚前訓練は、大規模視覚モデルの性能を大幅に向上させる。しかし、既存の低FLOPsモデルでは大規模な事前学習の恩恵を受けられないという「emph{low FLOPs pitfall」を観察する。本稿では,パラメータネットと呼ばれる大規模視覚前訓練のための低フロップを維持しつつ,より多くのパラメータを追加する一般的な設計原理を提案する。動的畳み込みは、ネットワークにより多くのパラメータを割り当て、FLOPをわずかに増やすのに使われる。提案手法により,低FLOPネットワークを大規模視覚前訓練の恩恵を受けることができる。大規模imagenet-22k実験では,パラメータネットスキームの優位性が示された。たとえばパラメータNet-600Mは広く使われているSwin Transformer(81.6\% \emph{vs)よりも精度が高い。 80.9\%) であり、より低いフロップ(0.6g \emph{vs)を持つ。 4.5g)である。コードはすぐにリリースされる(MindSpore: https://gitee.com/mindspore/models, PyTorch: https://github.com/huawei-noah/Efficient-AI-Backbones)。

関連論文リスト

Parameter-Efficient Fine-Tuning of Large Language Models via Deconvolution in Subspace [3.7049613588433497]
様々な下流タスクのための微調整大型言語モデル(LLM)が新しいパラダイムとなった。 Low-Rank Adaptation (LoRA)はそのパラメータ効率でよく知られている。我々は新しい方法を提案する。効率の良い分解はDCFTと呼ばれ、部分空間のデコンボリューションを介して行われる。
論文参考訳（メタデータ） (2025-03-03T11:15:50Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。 LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文参考訳（メタデータ） (2024-08-13T12:31:30Z)
Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文参考訳（メタデータ） (2024-07-13T10:08:55Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。プルーニングプロセス自体を最適化するためには、パラメータの代わりにサーバとクライアントの間でしきい値だけが通信される。グローバルしきい値は、集約されたパラメータの重要度を抽出することで、モデルパラメータの更新に使用される。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。 LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文参考訳（メタデータ） (2024-05-25T15:56:15Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文参考訳（メタデータ） (2023-06-16T11:37:15Z)
Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。 Sensuous-Aware Fine-Tuning (SPT) スキーム。 SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文参考訳（メタデータ） (2023-03-15T12:34:24Z)
Pretraining a Neural Network before Knowing Its Architecture [2.170169149901781]
大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
論文参考訳（メタデータ） (2022-07-20T17:27:50Z)
Go Wider Instead of Deeper [11.4541055228727]
我々は、より深くではなく、より広い範囲でトレーニング可能なパラメータを効率的にデプロイするフレームワークを提案する。私たちの最良のモデルはViT(Vision Transformer)を1.46%$、0.72倍のトレーニング可能なパラメータで上回ります。私たちのフレームワークは、ViTとViT-MoEをそれぞれ0.83%$と2.08%$で上回ることができます。
論文参考訳（メタデータ） (2021-07-25T14:44:24Z)
Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-03-12T07:00:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。