論文の概要: Flash Multi-Head Feed-Forward Network
- arxiv url: http://arxiv.org/abs/2512.06989v1
- Date: Sun, 07 Dec 2025 20:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.620164
- Title: Flash Multi-Head Feed-Forward Network
- Title(参考訳): Flashマルチヘッドフィードフォワードネットワーク
- Authors: Minshen Zhang, Xiang Hu, Jianguo Li, Wei Wu, Kewei Tu,
- Abstract要約: マルチヘッドFFN(MH-FFN)は、単一ヘッドアテンションとFFNの構造的類似性によって動機付けられる。
MH-FFNは、ヘッドカウントによるメモリ消費のスケーリングと、中間サイズと固定ヘッド次元の間の不均衡比の2つの課題に直面している。
我々はFlash Multi-Head FFN (FlashMHF) を提案し、I/O対応の核計算出力はFlashAttentionと同様のオンライン出力であり、動的に重み付けされた並列サブネットワークを用いた設計である。
- 参考スコア(独自算出の注目度): 51.82159978122374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore Multi-Head FFN (MH-FFN) as a replacement of FFN in the Transformer architecture, motivated by the structural similarity between single-head attention and FFN. While multi-head mechanisms enhance expressivity in attention, naively applying them to FFNs faces two challenges: memory consumption scaling with the head count, and an imbalanced ratio between the growing intermediate size and the fixed head dimension as models scale, which degrades scalability and expressive power. To address these challenges, we propose Flash Multi-Head FFN (FlashMHF), with two key innovations: an I/O-aware fused kernel computing outputs online in SRAM akin to FlashAttention, and a design using dynamically weighted parallel sub-networks to maintain a balanced ratio between intermediate and head dimensions. Validated on models from 128M to 1.3B parameters, FlashMHF consistently improves perplexity and downstream task accuracy over SwiGLU FFNs, while reducing peak memory usage by 3-5x and accelerating inference by up to 1.08x. Our work establishes the multi-head design as a superior architectural principle for FFNs, presenting FlashMHF as a powerful, efficient, and scalable alternative to FFNs in Transformers.
- Abstract(参考訳): 本稿では,トランスフォーマーアーキテクチャにおけるFFNの代替としてマルチヘッドFFN(MH-FFN)を検討する。
マルチヘッド機構は注目度を高める一方、FFNにネーティブで適用するには2つの課題がある: ヘッドカウントによるメモリ消費のスケーリングとモデルスケールとしての中間サイズと固定ヘッド次元の間の不均衡比であり、スケーラビリティと表現力の低下である。
これらの課題に対処するため、我々はFlash Multi-Head FFN (FlashMHF) を提案し、I/O対応の核計算出力をSRAMでオンラインに出力し、FlashAttentionと類似し、動的に重み付けされた並列サブネットワークを用いて中間次元と頭次元のバランスの取れた比を維持する。
128Mから1.3Bパラメータのモデルで検証されたFlashMHFは、SwiGLU FFNに対するパープレキシティとダウンストリームタスクの精度を一貫して改善し、ピークメモリ使用量を3~5倍削減し、推論を最大1.08倍高速化する。
我々の研究は、FFNの優れたアーキテクチャ原理としてマルチヘッド設計を確立し、FlashMHFをトランスフォーマーにおけるFFNの強力で効率的でスケーラブルな代替品として提示する。
関連論文リスト
- Attention Is Not All You Need: The Importance of Feedforward Networks in Transformer Models [0.0]
最先端のモデルは100以上のトランスフォーマーブロックを持ち、何十億ものトレーニング可能なパラメータを含み、数兆のテキストトークンで訓練される。
このようなブロックが少ない3層FFNを持つ変圧器ブロック構成を用いたモデルは、より少ない時間でより少ない総パラメータでトレーニング損失の少ない標準2層構成よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-10T12:54:21Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - A Lightweight Attention-based Deep Network via Multi-Scale Feature Fusion for Multi-View Facial Expression Recognition [2.9581436761331017]
これらの問題に対処するために,マルチスケール機能融合(LANMSFF)を取り入れた軽量な注意ネットワークを導入する。
本稿では,マスアテンション(MassAtt)とポイントワイズ機能選択(PWFS)という2つの新しいコンポーネントを提案する。
提案手法は,パラメータ数やロバスト性の観点から,最先端手法に匹敵する結果を得た。
論文 参考訳(メタデータ) (2024-03-21T11:40:51Z) - PartialFormer: Modeling Part Instead of Whole for Machine Translation [40.67489864907433]
より小さなFFNを利用するパラメータ効率のよいトランスフォーマーアーキテクチャであるPartialFormerを紹介する。
これらの小さなFFNは、効果的なコラボレーションのためのマルチヘッドアテンションメカニズムに統合される。
9つの翻訳タスクと1つの抽象的な要約タスクの実験により、PartialFormerアプローチの有効性が検証された。
論文 参考訳(メタデータ) (2023-10-23T13:25:54Z) - One Wide Feedforward is All You Need [3.043080042012617]
Transformer アーキテクチャには,Attention と Feed Forward Network (FFN) の2つの非埋め込みコンポーネントがある。
この研究で、FFNの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを示す。
我々は,デコーダ層上のFFNを除去し,エンコーダ全体で1つのFFNを共有することにより,パラメータ数をわずかに削減できる。
論文 参考訳(メタデータ) (2023-09-04T21:30:21Z) - MF-NeRF: Memory Efficient NeRF with Mixed-Feature Hash Table [62.164549651134465]
MF-NeRFは,Mixed-Featureハッシュテーブルを用いてメモリ効率を向上し,再構成品質を維持しながらトレーニング時間を短縮するメモリ効率の高いNeRFフレームワークである。
最新技術であるInstant-NGP、TensoRF、DVGOによる実験は、MF-NeRFが同じGPUハードウェア上で、同様のあるいはそれ以上のリコンストラクション品質で最速のトレーニング時間を達成できることを示唆している。
論文 参考訳(メタデータ) (2023-04-25T05:44:50Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。