論文の概要: Revisiting Funnel Transformers for Modern LLM Architectures with Comprehensive Ablations in Training and Inference Configurations
- arxiv url: http://arxiv.org/abs/2504.02877v1
- Date: Wed, 02 Apr 2025 02:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:41.766442
- Title: Revisiting Funnel Transformers for Modern LLM Architectures with Comprehensive Ablations in Training and Inference Configurations
- Title(参考訳): 学習・推論における包括的アブレーションによる近代LLMアーキテクチャのファンネル変換器の再検討
- Authors: DongHyun Choi, Lucas Spangher, Chris Hidey, Peter Grabowski, Ramy Eskander,
- Abstract要約: 現代のGemma2 Transformerアーキテクチャにおけるファンネリングの影響について検討する。
ファネリングは、特に大きなモデルにおいて、より深いネットワーク層を伝播する情報のボトルネックを生み出します。
この結果から,計算効率とモデル精度の主なトレードオフが明らかになった。
- 参考スコア(独自算出の注目度): 1.6255281211429766
- License:
- Abstract: Transformer-based Large Language Models, which suffer from high computational costs, advance so quickly that techniques proposed to streamline earlier iterations are not guaranteed to benefit more modern models. Building upon the Funnel Transformer proposed by Dai and Le (2020), which progressively compresses intermediate representations, we investigate the impact of funneling in contemporary Gemma2 Transformer architectures. We systematically evaluate various funnel configurations and recovery methods, comparing: (1) standard pretraining to funnel-aware pretraining strategies, (2) the impact of funnel-aware fine-tuning, and (3) the type of sequence recovery operation. Our results demonstrate that funneling creates information bottlenecks that propagate through deeper network layers, particularly in larger models (e.g., Gemma 7B), leading to at times unmanageable performance lost. However, carefully selecting the funneling layer and employing effective recovery strategies, can substantially mitigate performance losses, achieving up to a 44\% reduction in latency. Our findings highlight key trade-offs between computational efficiency and model accuracy, providing practical guidance for deploying funnel-based approaches in large-scale natural language applications.
- Abstract(参考訳): トランスフォーマーをベースとした大規模言語モデルは高い計算コストに悩まされており、初期のイテレーションを合理化するための技術がより現代的なモデルに利益をもたらすことが保証されないほど急速に進歩している。
The Funnel Transformer proposed by Dai and Le (2020) that progressively compresss intermediate representations, we investigated the impact of funneling in contemporary Gemma2 Transformer architectures。
我々は,(1)ファンネル認識事前訓練戦略に対する標準事前訓練,(2)ファンネル認識微調整の影響,(3)シークエンス回復操作のタイプを比較し,様々なファンネル構成とリカバリ手法を体系的に評価した。
この結果から,特に大規模モデル(Gemma 7Bなど)では,ネットワーク層を伝播する情報ボトルネックが発生し,管理不能な性能が失われることが示唆された。
しかし、ファンリング層を慎重に選択し、効果的なリカバリ戦略を採用することで、パフォーマンス損失を大幅に軽減し、最大44倍のレイテンシの削減を実現することができる。
本研究は,計算効率とモデル精度のトレードオフを浮き彫りにして,大規模自然言語アプリケーションにファンネルベースのアプローチを展開するための実践的ガイダンスを提供する。
関連論文リスト
- BEExformer: A Fast Inferencing Transformer Architecture via Binarization with Multiple Early Exits [2.7651063843287718]
トランスフォーマーに基づく大規模言語モデル(LLM)は、様々なアプリケーションで最先端の結果を得る。
様々な効率の考慮事項の中で、モデルバイナライゼーションとEarly Exit(EE)は一般的な有効解である。
本稿では,最初の選択型学習変圧器アーキテクチャであるBinarized Early Exit Transformer (BEExformer)を提案する。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - DiJiang: Efficient Large Language Models through Compact Kernelization [30.24187657746638]
本稿では、事前学習したバニラ変換器を、トレーニングコストの少ない線形複雑化モデルに変換するための新しい周波数領域カーネル化手法を提案する。
実験により,提案手法は元のTransformerに匹敵する性能を示したが,トレーニングコストを大幅に削減し,推論速度を大幅に高速化した。
論文 参考訳(メタデータ) (2024-03-29T02:32:15Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。