論文の概要: A Review of Sparse Expert Models in Deep Learning
- arxiv url: http://arxiv.org/abs/2209.01667v1
- Date: Sun, 4 Sep 2022 18:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 12:39:58.011752
- Title: A Review of Sparse Expert Models in Deep Learning
- Title(参考訳): 深層学習におけるスパースエキスパートモデルの検討
- Authors: William Fedus, Jeff Dean, Barret Zoph
- Abstract要約: スパースエキスパートモデル(Sparse expert model)は、ディープラーニングの一般的なアーキテクチャとして再開発される30年前のコンセプトだ。
本稿では,スパースエキスパートモデルの概念を概観し,共通アルゴリズムの基本的記述を提供し,深層学習時代の進歩を文脈化する。
- 参考スコア(独自算出の注目度): 23.721204843236006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse expert models are a thirty-year old concept re-emerging as a popular
architecture in deep learning. This class of architecture encompasses
Mixture-of-Experts, Switch Transformers, Routing Networks, BASE layers, and
others, all with the unifying idea that each example is acted on by a subset of
the parameters. By doing so, the degree of sparsity decouples the parameter
count from the compute per example allowing for extremely large, but efficient
models. The resulting models have demonstrated significant improvements across
diverse domains such as natural language processing, computer vision, and
speech recognition. We review the concept of sparse expert models, provide a
basic description of the common algorithms, contextualize the advances in the
deep learning era, and conclude by highlighting areas for future work.
- Abstract(参考訳): スパースエキスパートモデル(Sparse expert model)は、ディープラーニングの一般的なアーキテクチャとして再開発される30年前のコンセプトだ。
このアーキテクチャのクラスは、ミックス・オブ・エキスパート、スイッチ・トランスフォーマー、ルーティング・ネットワーク、ベース・レイヤなどを含んでいる。
これにより、スパーシティの度合いは、非常に大きいが効率的なモデルを実現するために、例ごとの計算からパラメータカウントを分離する。
結果として得られたモデルは、自然言語処理、コンピュータビジョン、音声認識など、さまざまな領域で大幅に改善されている。
本稿では,スパースエキスパートモデルの概念を概観し,共通アルゴリズムの基本的記述,深層学習時代の進歩の文脈化,今後の研究分野の強調によって結論付ける。
関連論文リスト
- Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - Model-Based Deep Learning: On the Intersection of Deep Learning and
Optimization [101.32332941117271]
決定アルゴリズムは様々なアプリケーションで使われている。
数理モデルに頼らずにデータから調整された高度パラメトリックアーキテクチャを使用するディープラーニングアプローチが、ますます人気が高まっている。
モデルに基づく最適化とデータ中心のディープラーニングは、しばしば異なる規律とみなされる。
論文 参考訳(メタデータ) (2022-05-05T13:40:08Z) - SuperCone: Modeling Heterogeneous Experts with Concept Meta-learning for
Unified Predictive Segments System [8.917697023052257]
統合述語セグメントシステムであるSuperConeについて述べる。
これは、各ユーザの異質なデジタルフットプリントを要約するフラットな概念表現の上に構築される。
様々な述語セグメントタスクにおいて、最先端のレコメンデーションとランキングアルゴリズムを上回ります。
論文 参考訳(メタデータ) (2022-03-09T04:11:39Z) - Polynomial Networks in Deep Classifiers [55.90321402256631]
我々は深層ニューラルネットワークの研究を統一的な枠組みで行った。
私たちのフレームワークは、各モデルの誘導バイアスに関する洞察を提供します。
提案モデルの有効性を,標準画像および音声分類ベンチマークで評価した。
論文 参考訳(メタデータ) (2021-04-16T06:41:20Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。