論文の概要: On the Adversarial Robustness of Mixture of Experts
- arxiv url: http://arxiv.org/abs/2210.10253v1
- Date: Wed, 19 Oct 2022 02:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:42:21.007427
- Title: On the Adversarial Robustness of Mixture of Experts
- Title(参考訳): 専門家の混合の敵対的ロバスト性について
- Authors: Joan Puigcerver, Rodolphe Jenatton, Carlos Riquelme, Pranjal Awasthi,
Srinadh Bhojanapalli
- Abstract要約: 最近、ブベックとセルケは、パラメータの数でトレーニングデータに適合する関数のリプシッツ定数の低い境界を証明した。
これにより、より多くのパラメータを持つ関数が、必ずしも計算コストが高ければ、より堅牢性を持つ、という興味深い疑問が持ち上がります。
本稿では, モデルサイズをほぼ一定の計算コストでスケールアップすることのできる, スパース混合専門家モデル(MoEs)について検討する。
- 参考スコア(独自算出の注目度): 30.028035734576005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial robustness is a key desirable property of neural networks. It has
been empirically shown to be affected by their sizes, with larger networks
being typically more robust. Recently, Bubeck and Sellke proved a lower bound
on the Lipschitz constant of functions that fit the training data in terms of
their number of parameters. This raises an interesting open question, do -- and
can -- functions with more parameters, but not necessarily more computational
cost, have better robustness? We study this question for sparse Mixture of
Expert models (MoEs), that make it possible to scale up the model size for a
roughly constant computational cost. We theoretically show that under certain
conditions on the routing and the structure of the data, MoEs can have
significantly smaller Lipschitz constants than their dense counterparts. The
robustness of MoEs can suffer when the highest weighted experts for an input
implement sufficiently different functions. We next empirically evaluate the
robustness of MoEs on ImageNet using adversarial attacks and show they are
indeed more robust than dense models with the same computational cost. We make
key observations showing the robustness of MoEs to the choice of experts,
highlighting the redundancy of experts in models trained in practice.
- Abstract(参考訳): 敵対的堅牢性は、ニューラルネットワークの重要な望ましい性質である。
これは経験的に、そのサイズに影響され、より大きなネットワークは通常より堅牢である。
最近、bubeck と sellke は、パラメータ数の観点からトレーニングデータに適合する関数のリプシッツ定数に下限があることを証明した。
これにより、より多くのパラメータを持つ関数が、必ずしも計算コストが高ければ、より堅牢性を持つことができるのか?
本稿では, モデルサイズをほぼ一定の計算コストでスケールアップすることのできる, 疎混合専門家モデル (MoE) について検討する。
理論的には、ルーティングとデータ構造に関する一定の条件下では、MoEsは密度の高いリプシッツ定数よりもかなり小さくすることができる。
入力に対する最も重みのある専門家が十分に異なる機能を実装すると、moesのロバスト性が損なわれる。
次に、逆攻撃を用いてimagenet上のmoesのロバスト性を評価し、同じ計算コストの高密度モデルよりもロバストであることを示す。
専門家の選択にmoesの堅牢性を示す重要な観察を行い、実際に訓練されたモデルにおける専門家の冗長性を強調した。
関連論文リスト
- On Least Square Estimation in Softmax Gating Mixture of Experts [78.3687645289918]
決定論的MoEモデルに基づく最小二乗推定器(LSE)の性能について検討する。
我々は,多種多様な専門家関数の収束挙動を特徴付けるために,強い識別可能性という条件を確立する。
本研究は,専門家の選択に重要な意味を持つ。
論文 参考訳(メタデータ) (2024-02-05T12:31:18Z) - Quantifying lottery tickets under label noise: accuracy, calibration,
and complexity [6.232071870655069]
ディープニューラルネットワークのプルーニングは、機械学習の計算負担を軽減するために広く利用されている戦略である。
スパース二重降下法を用いて一意的に同定し,分類タスクに付随するプルーンドモデルを特徴付ける。
論文 参考訳(メタデータ) (2023-06-21T11:35:59Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。