論文の概要: PartialFormer: Modeling Part Instead of Whole for Machine Translation
- arxiv url: http://arxiv.org/abs/2310.14921v2
- Date: Wed, 5 Jun 2024 17:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 04:05:59.081285
- Title: PartialFormer: Modeling Part Instead of Whole for Machine Translation
- Title(参考訳): partialFormer: 機械翻訳のための全体ではなく、モデリング部分
- Authors: Tong Zheng, Bei Li, Huiwen Bao, Jiale Wang, Weiqiao Shan, Tong Xiao, Jingbo Zhu,
- Abstract要約: より小さなFFNを利用するパラメータ効率のよいトランスフォーマーアーキテクチャであるPartialFormerを紹介する。
これらの小さなFFNは、効果的なコラボレーションのためのマルチヘッドアテンションメカニズムに統合される。
9つの翻訳タスクと1つの抽象的な要約タスクの実験により、PartialFormerアプローチの有効性が検証された。
- 参考スコア(独自算出の注目度): 40.67489864907433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design choices in Transformer feed-forward neural networks have resulted in significant computational and parameter overhead. In this work, we emphasize the importance of hidden dimensions in designing lightweight FFNs, a factor often overlooked in previous architectures. Guided by this principle, we introduce PartialFormer, a parameter-efficient Transformer architecture utilizing multiple smaller FFNs to reduce parameters and computation while maintaining essential hidden dimensions. These smaller FFNs are integrated into a multi-head attention mechanism for effective collaboration. We also propose a tailored head scaling strategy to enhance PartialFormer's capabilities. Furthermore, we present a residual-like attention calculation to improve depth scaling within PartialFormer. Extensive experiments on 9 translation tasks and 1 abstractive summarization task validate the effectiveness of our PartialFormer approach on machine translation and summarization tasks. Our code would be available at: https://github.com/zhengkid/PartialFormer.
- Abstract(参考訳): Transformerフィードフォワードニューラルネットワークの設計選択により、計算とパラメータのオーバーヘッドが大きくなった。
本稿では,従来のアーキテクチャでは見過ごされがちな軽量FFNの設計において,隠れ次元の重要性を強調した。
この原理により,複数の小さなFFNを用いたパラメータ効率の高いトランスフォーマーアーキテクチャであるPartialFormerを導入し,パラメータや計算量を削減するとともに,本質的な隠蔽次元を維持した。
これらの小さなFFNは、効果的なコラボレーションのためのマルチヘッドアテンションメカニズムに統合される。
また、PartialFormerの機能を強化するために、カスタマイズされたヘッドスケーリング戦略を提案する。
さらに,DepartFormer内での深度スケーリングを改善するために,残差型アテンション計算を提案する。
9つの翻訳タスクと1つの抽象的な要約タスクに関する広範囲な実験により、機械翻訳および要約タスクにおける部分ホルマーアプローチの有効性が検証された。
私たちのコードは、https://github.com/zhengkid/PartialFormer.comで利用可能です。
関連論文リスト
- Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - One Wide Feedforward is All You Need [3.043080042012617]
Transformer アーキテクチャには,Attention と Feed Forward Network (FFN) の2つの非埋め込みコンポーネントがある。
この研究で、FFNの役割を探求し、モデルのパラメータのかなりの部分を占めるにもかかわらず、非常に冗長であることを示す。
我々は,デコーダ層上のFFNを除去し,エンコーダ全体で1つのFFNを共有することにより,パラメータ数をわずかに削減できる。
論文 参考訳(メタデータ) (2023-09-04T21:30:21Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。