論文の概要: How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers
- arxiv url: http://arxiv.org/abs/2403.02436v3
- Date: Thu, 31 Oct 2024 06:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:03.673854
- Title: How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers
- Title(参考訳): 事前学習型言語モデルの基盤能力に及ぼすアーキテクチャの影響 : FFN-WiderとMoE変換器を事例として
- Authors: Xin Lu, Yanyan Zhao, Bing Qin, Liangyu Huo, Qing Yang, Dongliang Xu,
- Abstract要約: 本研究は,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転する試みである。
その結果,14BパラメータMOEモデルによる基礎能力の大幅な向上が達成できた。
- 参考スコア(独自算出の注目度): 29.901110957318924
- License:
- Abstract: Pre-trained language models have been proven to possess strong base capabilities, which not only excel in in-distribution language modeling but also show powerful abilities in out-of-distribution language modeling, transfer learning and few-shot learning. Unlike existing work focusing on the influence of scale on base capabilities, our work examines the influence of architecture on those. Specifically, our concern is: How does architecture influence the base capabilities of pre-trained language models? In this work, we attempt to explain and reverse the decline in base capabilities caused by the architecture of FFN-Wider Transformers, seeking to provide some insights. Through analysis, we found the contribution ratio of Multi-Head Attention (a combination function) to pre-trained language modeling is a key factor affecting base capabilities. FFN-Wider Transformers reduce the contribution ratio of this combination function, leading to a decline in base capabilities. We confirmed this by experiments and proposed Combination Enhanced Architecture (CEA) to address the decline in base capabilities of such models. Significantly, we extended our explanation and CEA to Mixture of Experts (MoE) Transformers. We successfully achieved significant improvements in base capabilities on a 14B parameter MoE model, demonstrating the practical application value of our work. This also indicates that our analysis has a certain guiding significance for architecture analysis, architecture improvement and architecture design.
- Abstract(参考訳): 事前学習された言語モデルは、分散言語モデリングに優れるだけでなく、アウト・オブ・ディストリビューション言語モデリング、トランスファーラーニング、および少数ショット学習において強力な能力を示す強力な基盤能力を有することが証明されている。
基本能力に対するスケールの影響に焦点を当てた既存の作業とは異なり、アーキテクチャの影響について検討する。
アーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか?
本研究では,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転し,いくつかの洞察を求めている。
分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。
FFN-Wider変換器は、この組み合わせ関数の寄与比を減少させ、基礎能力の低下を招いた。
実験によりこれを確認し,これらのモデルの基本能力の低下に対処する統合拡張アーキテクチャ(CEA)を提案した。
重要なことに、私たちは説明とCEAをMixture of Experts (MoE) Transformersに拡張しました。
また,14BパラメータMOEモデルによる基礎能力の大幅な向上を実現し,本研究の実用的価値を実証した。
このことは、アーキテクチャ分析、アーキテクチャ改善、アーキテクチャ設計において、我々の分析が一定の重要性を持っていることを示している。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures [27.386915138058416]
本稿では,ViT,ConvNeXt,Swin Transformersといった先進的な事前学習型アーキテクチャの有効性について検討した。
我々は、ImageNet-1K、ImageNet-21K、JFT-300M、ImageNet-22Kといった広範囲な事前学習データセットを用いて、これらのアーキテクチャの様々なバリエーションを評価する。
パラメータが少ないにもかかわらず、より大規模なResNetモデルよりも優れたモデルが存在することを観察する。
論文 参考訳(メタデータ) (2024-09-20T14:09:05Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Rethinking the Value of Transformer Components [45.841272820008264]
トレーニングされたトランスフォーマーモデルにおける個々のコンポーネント(サブレイヤ)の影響を異なる視点から評価する。
学習において重要でないコンポーネントを識別することで翻訳性能を向上させる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-07T16:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。