論文の概要: PartialFormer: Modeling Part Instead of Whole
- arxiv url: http://arxiv.org/abs/2310.14921v1
- Date: Mon, 23 Oct 2023 13:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:07:58.209985
- Title: PartialFormer: Modeling Part Instead of Whole
- Title(参考訳): partialFormer: Wholeの代わりにモデリングパーツ
- Authors: Tong Zheng, Bei Li, Huiwen Bao, Weiqiao Shan, Tong Xiao, Jingbo Zhu
- Abstract要約: より小さなFFNを利用するパラメータ効率のよいトランスフォーマーアーキテクチャであるPartialFormerを紹介する。
これらの小さなFFNは、効果的なコラボレーションを可能にするため、マルチヘッドアテンションシステムに統合される。
部分ホルダー内における深度スケーリングを改善するために,残差のような注意計算を提案する。
- 参考スコア(独自算出の注目度): 44.911510315361184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design choices in Transformer feed-forward neural networks have resulted
in significant computational and parameter overhead. In this work, we emphasize
the importance of hidden dimension in designing lightweight FFNs, a factor
often overlooked in previous architectures. Guided by this principle, we
introduce PartialFormer, a parameter-efficient Transformer architecture
utilizing multiple smaller FFNs to reduce parameters and computation while
maintaining essential hidden dimensions. These smaller FFNs are integrated into
a multi-head attention system to enable effective collaboration. We also
propose a tailored head scaling strategy to enhance PartialFormer's
capabilities. Furthermore, we present a residual-like attention calculation to
improve depth scaling within PartialFormer. Extensive experiments on 9
translation tasks and 1 abstractive summarization task validate the
effectiveness of our PartialFormer approach. Our code would be available at:
\url{https://github.com/zhengkid/PartialFormer}.
- Abstract(参考訳): Transformerフィードフォワードニューラルネットワークの設計選択により、計算とパラメータのオーバーヘッドが大きくなった。
本稿では,従来のアーキテクチャでは見過ごされがちな軽量FFNの設計において,隠れ次元の重要性を強調した。
この原理により,複数の小さなFFNを用いたパラメータ効率の高いトランスフォーマーアーキテクチャであるPartialFormerを導入し,パラメータや計算量を削減するとともに,本質的な隠蔽次元を維持した。
これらの小さなFFNは、効果的なコラボレーションを可能にするマルチヘッドアテンションシステムに統合される。
また,パーシャルフォーマーの能力を高めるために,頭部スケーリング戦略を提案する。
さらに,DepartFormer内での深度スケーリングを改善するために,残差型アテンション計算を提案する。
9つの翻訳タスクと1つの抽象要約タスクに関する広範囲な実験は、部分フォーマーアプローチの有効性を検証する。
私たちのコードは下記のurl{https://github.com/zhengkid/partialformer}で利用可能です。
関連論文リスト
- Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文 参考訳(メタデータ) (2024-08-22T17:35:18Z) - Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。
大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。
この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文 参考訳(メタデータ) (2024-07-13T10:08:55Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。