論文の概要: Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models
- arxiv url: http://arxiv.org/abs/2505.06633v1
- Date: Sat, 10 May 2025 12:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.951028
- Title: Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models
- Title(参考訳): トランスフォーマーモデルにおけるフィードフォワードネットワークの重要性
- Authors: Isaac Gerber,
- Abstract要約: 最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。
このようなブロックが少ない3層FFNを持つ変圧器ブロック構成を用いたモデルは、より少ない時間でより少ない総パラメータでトレーニング損失の少ない標準2層構成よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoder-only transformer networks have become incredibly popular for language modeling tasks. State-of-the-art models can have over a hundred transformer blocks, containing billions of trainable parameters, and are trained on trillions of tokens of text. Each transformer block typically consists of a multi-head attention (MHA) mechanism and a two-layer fully connected feedforward network (FFN). In this paper, we examine the importance of the FFN during the model pre-training process through a series of experiments, confirming that the FFN is important to model performance. Furthermore, we show that models using a transformer block configuration with three-layer FFNs with fewer such blocks outperform the standard two-layer configuration delivering lower training loss with fewer total parameters in less time.
- Abstract(参考訳): デコーダのみのトランスフォーマーネットワークは、言語モデリングタスクで驚くほど人気がある。
最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。
各トランスブロックは、通常マルチヘッドアテンション(MHA)機構と2層完全接続フィードフォワードネットワーク(FFN)から構成される。
本稿では,モデル事前学習過程におけるFFNの重要性を一連の実験により検証し,FFNがモデル性能に重要であることを確認する。
さらに, 3層FFNを用いたトランスフォーマーブロック構成を用いたモデルでは, 従来の2層構成よりも少ない時間でトレーニング損失が小さく, 総パラメータも少ない。
関連論文リスト
- Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文 参考訳(メタデータ) (2024-10-05T15:56:57Z) - CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Fcaformer: Forward Cross Attention in Hybrid Vision Transformer [29.09883780571206]
ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
論文 参考訳(メタデータ) (2022-11-14T08:43:44Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Multi-Unit Transformers for Neural Machine Translation [51.418245676894465]
マルチユニット変換器 (MUTE) を提案し, 変換器の表現性を向上する。
具体的には、複数の並列ユニットを使用し、複数のユニットによるモデリングがモデル性能を改善し、多様性を導入することを示す。
論文 参考訳(メタデータ) (2020-10-21T03:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。