論文の概要: Revisiting the Shape Convention of Transformer Language Models
- arxiv url: http://arxiv.org/abs/2602.06471v1
- Date: Fri, 06 Feb 2026 07:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.289432
- Title: Revisiting the Shape Convention of Transformer Language Models
- Title(参考訳): 変圧器言語モデルの形状規約の再検討
- Authors: Feng-Ting Liao, Meng-Hsi Chen, Guan-Ting Yi, Da-shan Shiu,
- Abstract要約: トランスフォーマー言語モデルは1つの一貫したアーキテクチャ形状に大きく依存している。
残差ワイド・ナローワイド近似が優れた機能を与えるという最近の結果に触発されて、Transformerの長年の形状規則を再考する。
従来のFFNをより深い時間ガラス形FFNに置き換えたTransformer変異体を開発した。
- 参考スコア(独自算出の注目度): 8.651290738103599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense Transformer language models have largely adhered to one consistent architectural shape: each layer consists of an attention module followed by a feed-forward network (FFN) with a narrow-wide-narrow MLP, allocating most parameters to the MLP at expansion ratios between 2 and 4. Motivated by recent results that residual wide-narrow-wide (hourglass) MLPs offer superior function approximation capabilities, we revisit the long-standing MLP shape convention in Transformer, challenging the necessity of the narrow-wide-narrow design. To study this, we develop a Transformer variant that replaces the conventional FFN with a deeper hourglass-shaped FFN, comprising a stack of hourglass sub-MLPs connected by residual pathways. We posit that a deeper but lighter hourglass FFN can serve as a competitive alternative to the conventional FFN, and that parameters saved by using a lighter hourglass FFN can be more effectively utilized, such as by enlarging model hidden dimensions under fixed budgets. We confirm these through empirical validations across model scales: hourglass FFNs outperform conventional FFNs up to 400M and achieve comparable performance at larger scales to 1B parameters; hourglass FFN variants with reduced FFN and increased attention parameters show consistent improvements over conventional configurations at matched budgets. Together, these findings shed new light on recent work and prompt a rethinking of the narrow-wide-narrow MLP convention and the balance between attention and FFN towards efficient and expressive modern language models.
- Abstract(参考訳): Dense Transformer言語モデルは,1つの一貫したアーキテクチャ形状に大きく依存している。各レイヤは注目モジュールと,幅の狭いMLPを備えたフィードフォワードネットワーク(FFN)で構成され,2~4の展開比でほとんどのパラメータをMPPに割り当てる。
残差広狭幅(時間ガラス)のMLPが優れた関数近似機能を提供するという最近の結果に触発されて,Transformer の長年の MLP 形状規則を再検討し,狭狭設計の必要性に挑戦する。
そこで本研究では,従来のFFNを1時間ガラス形状のFFNに置き換えたTransformer変異体を開発した。
従来のFFNの代替として,より深く,より軽い時間ガラスFFNが有効であり,より軽い時間ガラスFFNを用いて保存したパラメータを,固定予算下で隠れた次元を拡大するなど,より有効に活用できると仮定する。
時間ガラスFFNは従来のFFNよりも400Mに優れ、1Bパラメータに匹敵する性能を実現している。
これらの知見は、近年の研究に新たな光を当て、狭義のMLP規約を再考し、より効率的で表現力のある現代言語モデルへの注目とFFNのバランスを図った。
関連論文リスト
- Flash Multi-Head Feed-Forward Network [51.82159978122374]
マルチヘッドFFN(MH-FFN)は、単一ヘッドアテンションとFFNの構造的類似性によって動機付けられる。
MH-FFNは、ヘッドカウントによるメモリ消費のスケーリングと、中間サイズと固定ヘッド次元の間の不均衡比の2つの課題に直面している。
我々はFlash Multi-Head FFN (FlashMHF) を提案し、I/O対応の核計算出力はFlashAttentionと同様のオンライン出力であり、動的に重み付けされた並列サブネットワークを用いた設計である。
論文 参考訳(メタデータ) (2025-12-07T20:50:20Z) - Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。
自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。
提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文 参考訳(メタデータ) (2025-05-04T21:47:18Z) - ViKANformer: Embedding Kolmogorov Arnold Networks in Vision Transformers for Pattern-Based Learning [0.0]
視覚変換器(ViT)はパッチ埋め込みに自己注意を適用して画像分類を行う。
本稿では,サブレイヤをKAN拡張に置き換えるViKANformerを提案する。
論文 参考訳(メタデータ) (2025-03-03T03:10:26Z) - Sequential Compression Layers for Efficient Federated Learning in Foundational Models [2.6733991338938026]
そこで我々は,LoRAに依存しない,新しい,シンプルで,より効率的なパラメータ効率の微調整法を提案する。
このソリューションは、連合型微調整におけるLoRAに関連するボトルネックに対処し、最近のLoRAベースのアプローチより優れている。
論文 参考訳(メタデータ) (2024-12-09T22:06:47Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [102.92240148504774]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。