論文の概要: How does Architecture Influence the Base Capabilities of Pre-trained
Language Models? A Case Study Based on FFN-Wider Transformer Models
- arxiv url: http://arxiv.org/abs/2403.02436v1
- Date: Mon, 4 Mar 2024 19:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:09:05.231312
- Title: How does Architecture Influence the Base Capabilities of Pre-trained
Language Models? A Case Study Based on FFN-Wider Transformer Models
- Title(参考訳): 事前学習型言語モデルの基盤能力にアーキテクチャはどのような影響を及ぼすか?
FFN-Wider変換器モデルに基づく一事例
- Authors: Xin Lu, Yanyan Zhao, Bing Qin
- Abstract要約: 本研究は,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転する試みである。
分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。
- 参考スコア(独自算出の注目度): 34.24324719229975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have been proven to possess strong base
capabilities, which not only excel in in-distribution language modeling but
also show powerful abilities in out-of-distribution language modeling, transfer
learning and few-shot learning. Unlike existing work focusing on the influence
of scale on base capabilities, our work examines the influence of architecture
on those. Specifically, our concern is: How does architecture influence the
base capabilities of pre-trained language models? In this work, we attempt to
explain and reverse the decline in base capabilities caused by the architecture
of FFN-Wider Transformers, seeking to provide some insights. Through analysis,
we found the contribution ratio of Multi-Head Attention (a combination
function) to pre-trained language modeling is a key factor affecting base
capabilities. FFN-Wider Transformers reduce the contribution ratio of this
combination function, leading to a decline in base capabilities. We confirmed
this by experiments and proposed Combination Enhancement Architecture (CEA) to
address the decline in base capabilities of such models. Significantly, we
extended our explanation and CEA to Mixture of Experts (MoE) architecture
Transformers, which also alleviated their decline in base capabilities to some
extent, proving our work can offer useful guidance for architecture analysis,
architecture improvement and architecture design.
- Abstract(参考訳): 事前学習された言語モデルは、分散言語モデリングに優れているだけでなく、分散言語モデリング、転送学習、少数ショット学習の強力な能力を示す、強力な基礎能力を持つことが証明されている。
基本能力に対するスケールの影響に焦点を当てた既存の作業とは異なり、アーキテクチャの影響について検討する。
アーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか?
本研究では,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転し,いくつかの洞察を求めている。
分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。
FFN-Wider変換器は、この組み合わせ関数の寄与比を減少させ、基礎能力の低下につながる。
このようなモデルの基本能力の低下に対応するため、実験によりこれを確認し、統合強化アーキテクチャ(CEA)を提案した。
そして、基礎能力の低下をある程度緩和し、我々の研究がアーキテクチャ分析、アーキテクチャ改善、アーキテクチャ設計に有用なガイダンスを提供できることを証明しました。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures [27.386915138058416]
本稿では,ViT,ConvNeXt,Swin Transformersといった先進的な事前学習型アーキテクチャの有効性について検討した。
我々は、ImageNet-1K、ImageNet-21K、JFT-300M、ImageNet-22Kといった広範囲な事前学習データセットを用いて、これらのアーキテクチャの様々なバリエーションを評価する。
パラメータが少ないにもかかわらず、より大規模なResNetモデルよりも優れたモデルが存在することを観察する。
論文 参考訳(メタデータ) (2024-09-20T14:09:05Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Rethinking the Value of Transformer Components [45.841272820008264]
トレーニングされたトランスフォーマーモデルにおける個々のコンポーネント(サブレイヤ)の影響を異なる視点から評価する。
学習において重要でないコンポーネントを識別することで翻訳性能を向上させる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-11-07T16:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。