論文の概要: FFN Fusion: Rethinking Sequential Computation in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.18908v1
- Date: Mon, 24 Mar 2025 17:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:34:37.691952
- Title: FFN Fusion: Rethinking Sequential Computation in Large Language Models
- Title(参考訳): FFN Fusion: 大規模言語モデルにおける逐次計算の再考
- Authors: Akhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv,
- Abstract要約: 本稿では,大規模言語モデルにおける逐次計算を減らしたアーキテクチャ最適化手法であるFFN Fusionを紹介する。
我々は、このようなシーケンスを同定し、融合し、それらを並列操作に変換するための、原則化された方法論を開発した。
これらの手法をLlama-3.1-405B-Instructに適用することにより、推論遅延の1.71倍の高速化と、トークンあたりのコストの35倍の削減を実現する、効率的かつ間もなく公開されるモデルを構築する。
- 参考スコア(独自算出の注目度): 16.8637819797503
- License:
- Abstract: We introduce FFN Fusion, an architectural optimization technique that reduces sequential computation in large language models by identifying and exploiting natural opportunities for parallelization. Our key insight is that sequences of Feed-Forward Network (FFN) layers, particularly those remaining after the removal of specific attention layers, can often be parallelized with minimal accuracy impact. We develop a principled methodology for identifying and fusing such sequences, transforming them into parallel operations that significantly reduce inference latency while preserving model behavior. Applying these techniques to Llama-3.1-405B-Instruct, we create Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), an efficient and soon-to-be publicly available model that achieves a 1.71X speedup in inference latency and 35X lower per-token cost while maintaining strong performance across benchmarks. Through extensive experiments on models from 49B to 253B parameters, we demonstrate that FFN Fusion becomes increasingly effective at larger scales and can complement existing optimization techniques like quantization and pruning. Most intriguingly, we find that even full transformer blocks containing both attention and FFN layers can sometimes be parallelized, suggesting new directions for neural architecture design.
- Abstract(参考訳): 並列化の自然な機会を特定し,活用することにより,大規模言語モデルの逐次計算を削減できるアーキテクチャ最適化手法であるFFN Fusionを導入する。
私たちの重要な洞察は、フィードフォワードネットワーク(FFN)レイヤのシーケンス、特に特定の注意層を削除した後のシーケンスは、最小限の精度で並列化できるということです。
モデル動作を保ちながら、推論遅延を大幅に低減する並列処理へと変換する。
これらの技術をLlama-3.1-405B-Instructに応用し、Llama-Nemotron-Ultra-253B-Base(Ultra-253B-Base)を作成する。
49Bから253Bパラメータのモデルに対する広範な実験を通じて、FFN Fusionはより大規模で効果的になり、量子化やプルーニングといった既存の最適化技術を補完できることを示した。
最も興味深いことに、注意層とFFN層の両方を含むフルトランスフォーマーブロックも並列化可能であることが判明し、ニューラルアーキテクチャ設計の新たな方向性が示唆された。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B) はLlama-3.1-70B-Instructから派生した一般公開モデルである。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Parallelized Spatiotemporal Binding [47.67393266882402]
逐次入力のための最初の時間並列化可能なスロット学習アーキテクチャであるPSB(Parallelizable Spatiotemporal Binder)を導入する。
従来のRNNベースのアプローチとは異なり、PSBは全ての時間ステップを並列に、スロットとして知られるオブジェクト中心の表現を生成する。
現状と比較して、我々のアーキテクチャはより長いシーケンスで安定したトレーニングを行い、トレーニング速度が60%向上する並列化を実現し、教師なしの2Dおよび3Dオブジェクト中心のシーン分解と理解に匹敵する性能を得る。
論文 参考訳(メタデータ) (2024-02-26T23:16:34Z) - Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - TransNormerLLM: A Faster and Better Large Language Model with Improved
TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。
我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文 参考訳(メタデータ) (2023-07-27T16:45:33Z) - Efficiently Scaling Transformer Inference [8.196193683641582]
本稿では,トランスフォーマーモデルにおける効率的な生成推論の問題について,最も困難な設定の1つとして検討する。
我々は,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易な解析モデルを開発した。
我々は,入力トークンの大規模処理において,発生時に1トークンあたり29msの低バッチレイテンシを実現する(Int8重み量子化)。
論文 参考訳(メタデータ) (2022-11-09T18:50:38Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。