論文の概要: How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers
- arxiv url: http://arxiv.org/abs/2403.02436v2
- Date: Thu, 26 Sep 2024 06:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-27 21:22:07.098365
- Title: How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers
- Title(参考訳): 事前学習型言語モデルの基盤能力に及ぼすアーキテクチャの影響 : FFN-WiderとMoE変換器を事例として
- Authors: Xin Lu, Yanyan Zhao, Bing Qin, Liangyu Huo, Qing Yang, Dongliang Xu,
- Abstract要約: 本研究は,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転する試みである。
その結果,14BパラメータMOEモデルによる基礎能力の大幅な向上が達成できた。
- 参考スコア(独自算出の注目度): 29.901110957318924
- License:
- Abstract: Pre-trained language models have been proven to possess strong base capabilities, which not only excel in in-distribution language modeling but also show powerful abilities in out-of-distribution language modeling, transfer learning and few-shot learning. Unlike existing work focusing on the influence of scale on base capabilities, our work examines the influence of architecture on those. Specifically, our concern is: How does architecture influence the base capabilities of pre-trained language models? In this work, we attempt to explain and reverse the decline in base capabilities caused by the architecture of FFN-Wider Transformers, seeking to provide some insights. Through analysis, we found the contribution ratio of Multi-Head Attention (a combination function) to pre-trained language modeling is a key factor affecting base capabilities. FFN-Wider Transformers reduce the contribution ratio of this combination function, leading to a decline in base capabilities. We confirmed this by experiments and proposed Combination Enhanced Architecture (CEA) to address the decline in base capabilities of such models. Significantly, we extended our explanation and CEA to Mixture of Experts (MoE) Transformers. We successfully achieved significant improvements in base capabilities on a 14B parameter MoE model, demonstrating the practical application value of our work. This also indicates that our analysis has a certain guiding significance for architecture analysis, architecture improvement and architecture design.
- Abstract(参考訳): 事前学習された言語モデルは、分散言語モデリングに優れるだけでなく、アウト・オブ・ディストリビューション言語モデリング、トランスファーラーニング、および少数ショット学習において強力な能力を示す強力な基盤能力を有することが証明されている。
基本能力に対するスケールの影響に焦点を当てた既存の作業とは異なり、アーキテクチャの影響について検討する。
アーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか?
本研究では,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転し,いくつかの洞察を求めている。
分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。
FFN-Wider変換器は、この組み合わせ関数の寄与比を減少させ、基礎能力の低下を招いた。
実験によりこれを確認し,これらのモデルの基本能力の低下に対処する統合拡張アーキテクチャ(CEA)を提案した。
重要なことに、私たちは説明とCEAをMixture of Experts (MoE) Transformersに拡張しました。
また,14BパラメータMOEモデルによる基礎能力の大幅な向上を実現し,本研究の実用的価値を実証した。
このことは、アーキテクチャ分析、アーキテクチャ改善、アーキテクチャ設計において、我々の分析が一定の重要性を持っていることを示している。
関連論文リスト
- Activator: GLU Activations as The Core Functions of a Vision Transformer [1.3812010983144802]
トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処されるさまざまなタスクにおいて、多くの成功の背後にある主要なドライバである。
本稿では,多層パーセプトロンアーキテクチャに線形ゲートユニット(GLU)アクティベーションを組み込んだ変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。
論文 参考訳(メタデータ) (2024-05-24T21:46:52Z) - Enhancing Representations through Heterogeneous Self-Supervised Learning [61.40674648939691]
本稿では,HSSL(Heterogeneous Self-Supervised Learning)を提案する。
HSSLは、構造的変化を伴わない表現学習方式で、ベースモデルに新しい特徴を付与する。
HSSLは、様々な自己教師型メソッドと互換性があり、様々な下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-08T10:44:05Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - On the interplay of adversarial robustness and architecture components:
patches, convolution and attention [65.20660287833537]
本研究は,学習した特徴の解釈可能性と,未知の脅威モデルに対する頑健性に及ぼす対人訓練の効果について検討する。
ResNetからConvNeXtへのアブレーションにより、キーとなるアーキテクチャ上の変更により、約10%高い$ell_infty$-robustnessが実現した。
論文 参考訳(メタデータ) (2022-09-14T22:02:32Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。