論文の概要: Build a Robust QA System with Transformer-based Mixture of Experts
- arxiv url: http://arxiv.org/abs/2204.09598v1
- Date: Sun, 20 Mar 2022 02:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 00:57:21.710861
- Title: Build a Robust QA System with Transformer-based Mixture of Experts
- Title(参考訳): 変圧器を用いたエキスパート混在型ロバストQAシステムの構築
- Authors: Yu Qing Zhou, Xixuan Julie Liu, Yuanzhe Dong
- Abstract要約: 私たちは、ドメイン外のデータセットに適応できる堅牢な質問応答システムを構築しています。
我々は、ドメイン外評価において、最高のアーキテクチャとデータ拡張技術の組み合わせが53.477 F1スコアを達成することを示す。
- 参考スコア(独自算出の注目度): 0.29005223064604074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to build a robust question answering system that can
adapt to out-of-domain datasets. A single network may overfit to the
superficial correlation in the training distribution, but with a meaningful
number of expert sub-networks, a gating network that selects a sparse
combination of experts for each input, and careful balance on the importance of
expert sub-networks, the Mixture-of-Experts (MoE) model allows us to train a
multi-task learner that can be generalized to out-of-domain datasets. We also
explore the possibility of bringing the MoE layers up to the middle of the
DistilBERT and replacing the dense feed-forward network with a
sparsely-activated switch FFN layers, similar to the Switch Transformer
architecture, which simplifies the MoE routing algorithm with reduced
communication and computational costs. In addition to model architectures, we
explore techniques of data augmentation including Easy Data Augmentation (EDA)
and back translation, to create more meaningful variance among the small
out-of-domain training data, therefore boosting the performance and robustness
of our models. In this paper, we show that our combination of best architecture
and data augmentation techniques achieves a 53.477 F1 score in the
out-of-domain evaluation, which is a 9.52% performance gain over the baseline.
On the final test set, we reported a higher 59.506 F1 and 41.651 EM. We
successfully demonstrate the effectiveness of Mixture-of-Expert architecture in
a Robust QA task.
- Abstract(参考訳): 本稿では,ドメイン外データセットに適応可能な堅牢な質問応答システムの構築を目的とする。
1つのネットワークは、トレーニング分布における表面的相関に過度に適合するが、有意義な数のエキスパートサブネットワーク、入力毎に専門家の疎結合を選択するゲーティングネットワーク、エキスパートサブネットワークの重要性を慎重にバランスさせることにより、Mixture-of-Experts (MoE)モデルにより、ドメイン外のデータセットに一般化可能なマルチタスク学習者のトレーニングが可能になる。
また,moeルーティングアルゴリズムを単純化し,通信コストと計算コストを削減したswitch transformerアーキテクチャと類似した,sparsely-activated switch ffn層に置き換えることで,moe層をディチルバートの中央まで引き上げる可能性についても検討した。
モデルアーキテクチャに加えて,EDA(Easy Data Augmentation)やバックエンド翻訳といったデータ拡張技術についても検討し,ドメイン外の小さなトレーニングデータ間でより有意義なばらつきを生み出すことにより,モデルの性能と堅牢性を高める。
本稿では,最良のアーキテクチャとデータ拡張技術の組み合わせによって,ドメイン外評価において53.477 f1のスコアを達成できることを示し,ベースラインに対する9.52%のパフォーマンス向上を示す。
最終テストセットでは、59.506 F1と41.651 EMが報告された。
我々は、ロバストQAタスクにおけるMixture-of-Expertアーキテクチャの有効性を実証した。
関連論文リスト
- Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - Transformer-based Federated Learning for Multi-Label Remote Sensing Image Classification [2.3255040478777755]
各種クライアントにおける非IIDトレーニングデータに関連する課題に対処するために,最先端のトランスフォーマーアーキテクチャが適用可能であるかを検討する。
トランスフォーマーアーキテクチャは、局所的なトレーニングと集約の複雑さの増大により、能力を高める。
論文 参考訳(メタデータ) (2024-05-24T10:13:49Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - Semantic-aware Modular Capsule Routing for Visual Question Answering [55.03883681191765]
SuPER と呼ばれるセマンティック・アウェアな modUlar caPsulE フレームワークを提案する。
5つのベンチマークデータセットに対して提案した SUPER スキームの有効性と一般化能力を比較検討した。
論文 参考訳(メタデータ) (2022-07-21T10:48:37Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - Wide-band butterfly network: stable and efficient inversion via
multi-frequency neural networks [1.2891210250935143]
広帯域散乱データから逆散乱マップを近似するために,広帯域蝶ネットワーク(WideBNet)と呼ばれるエンドツーエンドのディープラーニングアーキテクチャを導入する。
このアーキテクチャでは、バタフライの分解のような計算調和解析や、クーリー・テューキーFFTアルゴリズムのような伝統的なマルチスケール手法のツールが組み込まれている。
論文 参考訳(メタデータ) (2020-11-24T21:48:43Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。