Fugu-MT 論文翻訳(概要): How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers

論文の概要: How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers

arxiv url: http://arxiv.org/abs/2403.02436v2
Date: Thu, 31 Oct 2024 06:09:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 04:21:34.293919
Title: How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider and MoE Transformers
Title（参考訳）: 事前学習型言語モデルの基盤能力に及ぼすアーキテクチャの影響 : FFN-WiderとMoE変換器を事例として
Authors: Xin Lu, Yanyan Zhao, Bing Qin, Liangyu Huo, Qing Yang, Dongliang Xu,
Abstract要約: 本研究は,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転する試みである。その結果,14BパラメータMOEモデルによる基礎能力の大幅な向上が達成できた。
参考スコア（独自算出の注目度）: 29.901110957318924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models have been proven to possess strong base capabilities, which not only excel in in-distribution language modeling but also show powerful abilities in out-of-distribution language modeling, transfer learning and few-shot learning. Unlike existing work focusing on the influence of scale on base capabilities, our work examines the influence of architecture on those. Specifically, our concern is: How does architecture influence the base capabilities of pre-trained language models? In this work, we attempt to explain and reverse the decline in base capabilities caused by the architecture of FFN-Wider Transformers, seeking to provide some insights. Through analysis, we found the contribution ratio of Multi-Head Attention (a combination function) to pre-trained language modeling is a key factor affecting base capabilities. FFN-Wider Transformers reduce the contribution ratio of this combination function, leading to a decline in base capabilities. We confirmed this by experiments and proposed Combination Enhanced Architecture (CEA) to address the decline in base capabilities of such models. Significantly, we extended our explanation and CEA to Mixture of Experts (MoE) Transformers. We successfully achieved significant improvements in base capabilities on a 14B parameter MoE model, demonstrating the practical application value of our work. This also indicates that our analysis has a certain guiding significance for architecture analysis, architecture improvement and architecture design.
Abstract（参考訳）: 事前学習された言語モデルは、分散言語モデリングに優れるだけでなく、アウト・オブ・ディストリビューション言語モデリング、トランスファーラーニング、および少数ショット学習において強力な能力を示す強力な基盤能力を有することが証明されている。基本能力に対するスケールの影響に焦点を当てた既存の作業とは異なり、アーキテクチャの影響について検討する。アーキテクチャは、事前訓練された言語モデルのベース機能にどのように影響しますか? 本研究では,FFN-Wider変換器のアーキテクチャによる基本能力の低下を説明・逆転し,いくつかの洞察を求めている。分析の結果,多面的注意(組み合わせ関数)と事前学習言語モデリングの寄与比が基本能力に影響を及ぼす重要な要因であることが判明した。 FFN-Wider変換器は、この組み合わせ関数の寄与比を減少させ、基礎能力の低下を招いた。実験によりこれを確認し,これらのモデルの基本能力の低下に対処する統合拡張アーキテクチャ(CEA)を提案した。重要なことに、私たちは説明とCEAをMixture of Experts (MoE) Transformersに拡張しました。また,14BパラメータMOEモデルによる基礎能力の大幅な向上を実現し,本研究の実用的価値を実証した。このことは、アーキテクチャ分析、アーキテクチャ改善、アーキテクチャ設計において、我々の分析が一定の重要性を持っていることを示している。

関連論文リスト

RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文参考訳（メタデータ） (2026-02-12T03:02:22Z)
Hardness, Structural Knowledge, and Opportunity: An Analytical Framework for Modular Performance Modeling [9.1773311943941]
ハードネス」は、パフォーマンスモデリングの固有の難しさとして定義される。モデリングの難しさは、主にモジュール数とモジュールごとの設定オプションによって引き起こされることを示す。構造知識の高レベル化とモデリング難易度の向上が,改善の機会を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-09-13T22:52:10Z)
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models [51.817121227562964]
大規模言語モデル(LLM)は、言語理解、生成、推論、マルチモーダルモデルの能力境界の押し付けにおいて、素晴らしい結果をもたらしている。トランスフォーマーモデルは、現代のLLMの基礎として、優れたスケーリング特性を備えた強力なベースラインを提供する。従来のトランスフォーマーアーキテクチャは、相当な計算を必要とし、大規模なトレーニングと実践的なデプロイメントに重大な障害を生じさせる。
論文参考訳（メタデータ） (2025-08-13T14:13:46Z)
How Does Sequence Modeling Architecture Influence Base Capabilities of Pre-trained Language Models? Exploring Key Architecture Design Principles to Avoid Base Capabilities Degradation [37.57021686999279]
この研究は、塩基機能に対するシーケンスモデリングアーキテクチャの影響に焦点を当てている。まず、混合ドメイン事前トレーニング設定では、様々なアーキテクチャ間の基本能力の違いを適切に明らかにできないことを指摘します。次に、ステートフルシーケンスモデリングアーキテクチャの基本能力を解析し、トランスフォーマーと比較して基盤能力を著しく劣化させることを示した。
論文参考訳（メタデータ） (2025-05-24T05:40:03Z)
Empirical Evaluation of Knowledge Distillation from Transformers to Subquadratic Language Models [3.287942619833188]
我々は,トランスフォーマーの教師から9つのサブクワッドラティックな学生建築への知識蒸留の伝達可能性について,体系的に評価した。本研究の目的は,教師の学習した表現にどのサブクワッドラティックモデルが最適か,また,異なる構造的制約が蒸留プロセスにどのように影響するかを判断することである。
論文参考訳（メタデータ） (2025-04-19T17:49:52Z)
FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。 FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。 FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
論文参考訳（メタデータ） (2025-02-28T18:52:24Z)
Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
大規模なニューラルネットワークは予測タスクに優れるが、タンパク質工学や材料発見といった設計問題への応用には、オフラインモデルベース最適化(MBO)の問題を解決する必要がある。機能的グラフィカルモデル(FGM)を用いてブラックボックス関数の構造を学習するトランスフォーマーベースのアーキテクチャであるCliqueformerを提案する。化学および遺伝子設計タスクを含む様々な領域において、Cliqueformerは既存の方法よりも優れた性能を示している。
論文参考訳（メタデータ） (2024-10-17T00:35:47Z)
Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。 UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文参考訳（メタデータ） (2024-10-09T22:25:50Z)
Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures [27.386915138058416]
本稿では,ViT,ConvNeXt,Swin Transformersといった先進的な事前学習型アーキテクチャの有効性について検討した。我々は、ImageNet-1K、ImageNet-21K、JFT-300M、ImageNet-22Kといった広範囲な事前学習データセットを用いて、これらのアーキテクチャの様々なバリエーションを評価する。パラメータが少ないにもかかわらず、より大規模なResNetモデルよりも優れたモデルが存在することを観察する。
論文参考訳（メタデータ） (2024-09-20T14:09:05Z)
The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。また、多言語モデルの性能と、英語のみとの比較についても検討する。私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文参考訳（メタデータ） (2022-10-27T13:43:27Z)
BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文参考訳（メタデータ） (2022-06-02T01:54:58Z)
Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。 GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文参考訳（メタデータ） (2022-03-02T13:44:49Z)
GroupBERT: Enhanced Transformer Architecture with Efficient Grouped Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文参考訳（メタデータ） (2021-06-10T15:41:53Z)
Rethinking the Value of Transformer Components [45.841272820008264]
トレーニングされたトランスフォーマーモデルにおける個々のコンポーネント(サブレイヤ)の影響を異なる視点から評価する。学習において重要でないコンポーネントを識別することで翻訳性能を向上させる新しいトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-11-07T16:31:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。