論文の概要: Mixture of Hidden-Dimensions Transformer
- arxiv url: http://arxiv.org/abs/2412.05644v3
- Date: Mon, 16 Dec 2024 12:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:00.946645
- Title: Mixture of Hidden-Dimensions Transformer
- Title(参考訳): ハイドデン次元変圧器の混合
- Authors: Yilong Chen, Junyuan Shang, Zhengyu Zhang, Jiawei Sheng, Tingwen Liu, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang,
- Abstract要約: 隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
- 参考スコア(独自算出の注目度): 50.40325486463241
- License:
- Abstract: Transformer models encounter challenges in scaling hidden dimensions efficiently, as uniformly increasing them inflates computational and memory costs while failing to emphasize the most relevant features for each token. For further understanding, we study hidden dimension sparsity and observe that trained Transformers utilize only a small fraction of token dimensions, revealing an "activation flow" pattern. Notably, there are shared sub-dimensions with sustained activation across multiple consecutive tokens and specialized sub-dimensions uniquely activated for each token. To better model token-relevant sub-dimensions, we propose MoHD (Mixture of Hidden Dimensions), a sparse conditional activation architecture. Particularly, MoHD employs shared sub-dimensions for common token features and a routing mechanism to dynamically activate specialized sub-dimensions. To mitigate potential information loss from sparsity, we design activation scaling and group fusion mechanisms to preserve activation flow. In this way, MoHD expands hidden dimensions with negligible increases in computation or parameters, efficient training and inference while maintaining performance. Evaluations across 10 NLP tasks show that MoHD surpasses Vanilla Transformers in parameter efficiency and task performance. It achieves 1.7% higher performance with 50% fewer activation parameters and 3.7% higher performance with a 3x parameter expansion at constant activation cost. MOHD offers a new perspective for scaling the model, showcasing the potential of hidden dimension sparsity to boost efficiency
- Abstract(参考訳): トランスフォーマーモデルは、隠れた次元を効率よくスケーリングする際の課題に直面する。
さらに理解するために、隠れ次元の空間性を調査し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察し、「活性化フロー」パターンを明らかにした。
特に、複数の連続するトークン間で持続的に活性化される共有サブ次元と、それぞれのトークンに対して一意に活性化される特別なサブ次元がある。
トークン関連サブ次元をモデル化するために, スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
特に、MoHDは共通トークンの特徴として共有サブディメンジョンと、特別なサブディメンジョンを動的に活性化するルーティング機構を使用している。
疎度からの潜在的な情報損失を軽減するため,アクティベーション・スケーリングとグループ融合機構を設計し,アクティベーション・フローの保存を図る。
このようにして、MoHDは、計算やパラメータの無視できる増加、効率的なトレーニングと推論を性能を維持しながら、隠れた次元を拡張する。
10個のNLPタスクで評価すると、MoHDはパラメータ効率とタスク性能でVanilla Transformerを上回っている。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
MOHDはモデルをスケールするための新しい視点を提供し、効率を高めるために隠された次元の空間性の可能性を示す
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution [5.110892180215454]
単一画像の超高解像度化のための軽量な手法は、限られたハードウェアリソースのために優れた性能を達成した。
その結果, 各ブロックの残差接続により, モデルストレージと計算コストが増大することが判明した。
我々は,基本的特徴抽出モジュールとして,奥行き分離可能な畳み込み,完全連結層,アクティベーション関数を用いる。
論文 参考訳(メタデータ) (2024-10-13T14:00:21Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。
このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z) - SparCA: Sparse Compressed Agglomeration for Feature Extraction and
Dimensionality Reduction [0.0]
本稿では,新しい次元縮小法としてスパース圧縮凝集法(SparCA)を提案する。
SparCAは、幅広いデータタイプに適用でき、高度に解釈可能な機能を生成し、下流の教師あり学習タスクで魅力的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-01-26T13:59:15Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Augmentations: An Insight into their Effectiveness on Convolution Neural
Networks [0.0]
モデルの堅牢性を高める能力は、viz-a-viz、モデルアーキテクチャ、拡張のタイプという2つの要因に依存します。
本稿では,3x3および奥行き分離可能な畳み込みを用いたパラメータが,異なる拡張手法に与える影響について検討する。
論文 参考訳(メタデータ) (2022-05-09T06:36:40Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。