論文の概要: PAD-Net: An Efficient Framework for Dynamic Networks
- arxiv url: http://arxiv.org/abs/2211.05528v2
- Date: Thu, 25 May 2023 06:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:36:25.744958
- Title: PAD-Net: An Efficient Framework for Dynamic Networks
- Title(参考訳): PAD-Net: 動的ネットワークのための効率的なフレームワーク
- Authors: Shwai He, Liang Ding, Daize Dong, Boan Liu, Fuqiang Yu, Dacheng Tao
- Abstract要約: 動的ネットワークを実装する際の一般的な実践は、与えられた静的レイヤを完全な動的レイヤに変換することである。
我々は、冗長な動的パラメータを静的なパラメータに変換するために、部分的に動的ネットワーク、すなわちPAD-Netを提案する。
提案手法は,2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
- 参考スコア(独自算出の注目度): 72.85480289152719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic networks, e.g., Dynamic Convolution (DY-Conv) and the Mixture of
Experts (MoE), have been extensively explored as they can considerably improve
the model's representation power with acceptable computational cost. The common
practice in implementing dynamic networks is to convert the given static layers
into fully dynamic ones where all parameters are dynamic (at least within a
single layer) and vary with the input. However, such a fully dynamic setting
may cause redundant parameters and high deployment costs, limiting the
applicability of dynamic networks to a broader range of tasks and models. The
main contributions of our work are challenging the basic commonsense in dynamic
networks and proposing a partially dynamic network, namely PAD-Net, to
transform the redundant dynamic parameters into static ones. Also, we further
design Iterative Mode Partition to partition dynamic and static parameters
efficiently. Our method is comprehensively supported by large-scale experiments
with two typical advanced dynamic architectures, i.e., DY-Conv and MoE, on both
image classification and GLUE benchmarks. Encouragingly, we surpass the fully
dynamic networks by $+0.7\%$ top-1 acc with only $30\%$ dynamic parameters for
ResNet-50 and $+1.9\%$ average score in language understanding with only $50\%$
dynamic parameters for BERT. Code will be released at:
\url{https://github.com/Shwai-He/PAD-Net}.
- Abstract(参考訳): 動的畳み込み(DY-Conv)やMixture of Experts(MoE)といった動的ネットワークは、許容する計算コストでモデルの表現能力を大幅に改善できるため、広く研究されている。
動的ネットワークを実装する一般的なプラクティスは、与えられた静的レイヤを、すべてのパラメータが動的(少なくとも1つの層内で)で入力によって変化する完全に動的層に変換することである。
しかし、このような完全な動的設定は冗長なパラメータと高いデプロイメントコストを引き起こし、ダイナミックネットワークの適用範囲を幅広いタスクやモデルに制限する可能性がある。
私たちの研究の主な貢献は、動的ネットワークにおける基本的な常識に挑戦し、冗長な動的パラメータを静的に変換するために部分動的ネットワーク、すなわちpad-netを提案することです。
また、動的パラメータと静的パラメータを効率的に分割する反復モード分割を設計する。
本手法は画像分類とGLUEベンチマークの両方において,DY-ConvとMoEという2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
さらに、完全な動的ネットワークを$+0.7\%$ top-1 accで上回り、ResNet-50の動的パラメータは$30\%、BERTの動的パラメータは$50\%で言語理解の平均スコアは$+1.9\%である。
コードは: \url{https://github.com/Shwai-He/PAD-Net}.orgでリリースされる。
関連論文リスト
- Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space [4.111899441919165]
Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。
PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。
Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
論文 参考訳(メタデータ) (2023-04-13T05:22:24Z) - DynInt: Dynamic Interaction Modeling for Large-scale Click-Through Rate
Prediction [0.0]
機能インタラクションの学習は、Adsランキングとレコメンデーションシステムにおける大規模なCTR予測の成功の鍵である。
このような問題をモデル化するために、ディープニューラルネットワークベースのモデルが広く採用されている。
我々はDynIntという新しいモデルを提案する。DynIntは動的でデータに依存しない高次相互作用を学習する。
論文 参考訳(メタデータ) (2023-01-03T13:01:30Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文 参考訳(メタデータ) (2021-11-22T16:29:06Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Dynamic Slimmable Network [105.74546828182834]
ダイナミックスリム化システム「ダイナミックスリム化ネットワーク(DS-Net)」を開発。
ds-netは,提案するダブルヘッド動的ゲートによる動的推論機能を備えている。
静的圧縮法と最先端の静的および動的モデル圧縮法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-03-24T15:25:20Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z) - Learning Dynamic Routing for Semantic Segmentation [86.56049245100084]
本稿では,動的ルーティングと呼ばれる意味表現のスケール分散を緩和する概念的に新しい手法を提案する。
提案フレームワークは,各画像のスケール分布に適応して,データ依存経路を生成する。
この目的のために、ハエのスケール変換経路を選択するために、ソフトコンディショナルゲートと呼ばれる微分可能なゲーティング関数を提案する。
論文 参考訳(メタデータ) (2020-03-23T17:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。