論文の概要: Robust Mixture-of-Expert Training for Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2308.10110v1
- Date: Sat, 19 Aug 2023 20:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:49:10.964283
- Title: Robust Mixture-of-Expert Training for Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークのためのロバスト混合訓練
- Authors: Yihua Zhang, Ruisi Cai, Tianlong Chen, Guanhua Zhang, Huan Zhang,
Pin-Yu Chen, Shiyu Chang, Zhangyang Wang, Sijia Liu
- Abstract要約: スパースゲート型Mixture of Expert (MoE) は高精度で超効率的なモデル推論を実現するための大きな可能性を実証している。
本稿では、AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。
その結果,AdvMoEは従来の高密度CNNに比べて1%の対向ロバスト性向上を実現し,親和性に富むMoEの有効性を享受できることがわかった。
- 参考スコア(独自算出の注目度): 141.3531209949845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparsely-gated Mixture of Expert (MoE), an emerging deep model architecture,
has demonstrated a great promise to enable high-accuracy and ultra-efficient
model inference. Despite the growing popularity of MoE, little work
investigated its potential to advance convolutional neural networks (CNNs),
especially in the plane of adversarial robustness. Since the lack of robustness
has become one of the main hurdles for CNNs, in this paper we ask: How to
adversarially robustify a CNN-based MoE model? Can we robustly train it like an
ordinary CNN model? Our pilot study shows that the conventional adversarial
training (AT) mechanism (developed for vanilla CNNs) no longer remains
effective to robustify an MoE-CNN. To better understand this phenomenon, we
dissect the robustness of an MoE-CNN into two dimensions: Robustness of routers
(i.e., gating functions to select data-specific experts) and robustness of
experts (i.e., the router-guided pathways defined by the subnetworks of the
backbone CNN). Our analyses show that routers and experts are hard to adapt to
each other in the vanilla AT. Thus, we propose a new router-expert alternating
Adversarial training framework for MoE, termed AdvMoE. The effectiveness of our
proposal is justified across 4 commonly-used CNN model architectures over 4
benchmark datasets. We find that AdvMoE achieves 1% ~ 4% adversarial robustness
improvement over the original dense CNN, and enjoys the efficiency merit of
sparsity-gated MoE, leading to more than 50% inference cost reduction. Codes
are available at https://github.com/OPTML-Group/Robust-MoE-CNN.
- Abstract(参考訳): 深層モデルアーキテクチャであるSparsely-gated Mixture of Expert (MoE)は、高精度で超効率的なモデル推論を可能にするという大きな約束を実証している。
moeの人気は高まっているが、畳み込みニューラルネットワーク(cnns)を前進させる可能性についてはほとんど研究されていない。
堅牢性の欠如がCNNの主要なハードルとなっているため、本稿では、CNNベースのMoEモデルを逆向きに堅牢化する方法を問う。
通常のCNNモデルのように、しっかりとトレーニングできますか?
パイロット実験の結果,従来の逆行訓練(AT)機構(バニラCNN用に開発された)は,もはやMoE-CNNの堅牢化には有効ではないことが明らかとなった。
この現象をよりよく理解するために、我々はmoe-cnnのロバスト性を2次元に分類する:ルータのロバスト性(すなわち、データ固有の専門家を選ぶためのゲーティング関数)と専門家のロバスト性(つまり、バックボーンcnnのサブネットワークによって定義されたルータ誘導経路)である。
解析の結果,バニラATではルータと専門家の対応が困難であることが判明した。
そこで我々は,AdvMoEと呼ばれるMoEのための新しいルータ-エキスパート交互学習フレームワークを提案する。
提案手法の有効性は4つのベンチマークデータセット上で4つの一般的なCNNモデルアーキテクチャにまたがって正当化される。
その結果,AdvMoEは従来の高密度CNNに比べて1%~4%の対向ロバスト性向上を実現し,スペーサゲートMOEの有効性を享受し,50%以上の推論コスト削減を実現していることがわかった。
コードはhttps://github.com/OPTML-Group/Robust-MoE-CNNで公開されている。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Reusing Convolutional Neural Network Models through Modularization and
Composition [22.823870645316397]
我々はCNNSplitterとGradSplitterという2つのモジュール化手法を提案する。
CNNSplitterは、トレーニングされた畳み込みニューラルネットワーク(CNN)モデルを、小さな再利用可能なモジュールとして$N$に分解する。
生成されたモジュールは、既存のCNNモデルにパッチを当てたり、コンポジションを通じて新しいCNNモデルを構築するために再利用することができる。
論文 参考訳(メタデータ) (2023-11-08T03:18:49Z) - An Efficient Evolutionary Deep Learning Framework Based on Multi-source
Transfer Learning to Evolve Deep Convolutional Neural Networks [8.40112153818812]
畳み込みニューラルネットワーク(CNN)は、より複雑なトポロジを導入し、より深くより広いCNNへのキャパシティを拡大することで、長年にわたって、より優れたパフォーマンスを実現してきた。
計算コストは依然としてCNNを自動設計するボトルネックである。
本稿では, CNNを効率的に進化させるために, トランスファーラーニングにヒントを得て, 新たな進化的計算ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-07T20:22:58Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Patching Weak Convolutional Neural Network Models through Modularization
and Composition [19.986199290508925]
分類タスクのための畳み込みニューロンネットワーク(CNN)モデルは、しばしば不満足に機能する。
圧縮モジュラー化手法であるCNNSplitterを提案し、$N$クラス分類のための強力なCNNモデルを$N$より小さなCNNモジュールに分解する。
CNNSplitterは、モジュール化と構成により弱いCNNモデルにパッチを適用できることを示し、ロバストなCNNモデルを開発するための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2022-09-11T15:26:16Z) - Exploiting Hybrid Models of Tensor-Train Networks for Spoken Command
Recognition [9.262289183808035]
本研究の目的は,低複雑性音声コマンド認識(SCR)システムの設計である。
我々は、テンソルトレイン(TT)ネットワークの深いハイブリッドアーキテクチャを利用して、エンドツーエンドのSRCパイプラインを構築する。
提案したCNN+(TT-DNN)モデルでは,CNNモデルより4倍少ないモデルパラメータで96.31%の競争精度が得られる。
論文 参考訳(メタデータ) (2022-01-11T05:57:38Z) - Exploring Architectural Ingredients of Adversarially Robust Deep Neural
Networks [98.21130211336964]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,ネットワーク幅と深さがDNNの強靭性に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2021-10-07T23:13:33Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。