論文の概要: Brainformers: Trading Simplicity for Efficiency
- arxiv url: http://arxiv.org/abs/2306.00008v1
- Date: Mon, 29 May 2023 18:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:44:58.269768
- Title: Brainformers: Trading Simplicity for Efficiency
- Title(参考訳): brainformers: シンプルさと効率性
- Authors: Yanqi Zhou, Nan Du, Yanping Huang, Daiyi Peng, Chang Lan, Da Huang,
Siamak Shakeri, David So, Andrew Dai, Yifeng Lu, Zhifeng Chen, Quoc Le,
Claire Cui, James Laundon, Jeff Dean
- Abstract要約: 我々はBrainformerという名前の複雑なブロックを開発し、多様なレイヤで構成されています。
Brainformerは、最先端の高密度でスパースなTransformerよりも一貫して優れています。
トークンあたり80億のアクティベートパラメータを持つBrainformerモデルは、2倍高速なトレーニング収束と5倍高速なステップタイムを示す。
- 参考スコア(独自算出の注目度): 31.82160114117031
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers are central to recent successes in natural language processing
and computer vision. Transformers have a mostly uniform backbone where layers
alternate between feed-forward and self-attention in order to build a deep
network. Here we investigate this design choice and find that more complex
blocks that have different permutations of layer primitives can be more
efficient. Using this insight, we develop a complex block, named Brainformer,
that consists of a diverse sets of layers such as sparsely gated feed-forward
layers, dense feed-forward layers, attention layers, and various forms of layer
normalization and activation functions. Brainformer consistently outperforms
the state-of-the-art dense and sparse Transformers, in terms of both quality
and efficiency. A Brainformer model with 8 billion activated parameters per
token demonstrates 2x faster training convergence and 5x faster step time
compared to its GLaM counterpart. In downstream task evaluation, Brainformer
also demonstrates a 3% higher SuperGLUE score with fine-tuning compared to GLaM
with a similar number of activated parameters. Finally, Brainformer largely
outperforms a Primer dense model derived with NAS with similar computation per
token on fewshot evaluations.
- Abstract(参考訳): トランスフォーマーは、自然言語処理とコンピュータビジョンにおける最近の成功の中心である。
トランスフォーマーは、ディープネットワークを構築するために、フィードフォワードとセルフアテンションの層を交互に切り替える、ほとんど均一なバックボーンを持つ。
ここでは、この設計選択を調査し、異なる層プリミティブの置換を持つより複雑なブロックがより効率的であることを示す。
この知見を用いて,フィードフォワード層,高密度フィードフォワード層,アテンション層,各種層正規化およびアクティベーション関数などの多様な層からなる複雑なブロック,Brainformerを開発した。
brainformerは、品質と効率の両面で、最先端の高密度でスパースなトランスフォーマーを一貫して上回っている。
トークンあたり80億のアクティベートパラメータを持つBrainformerモデルは、GLaMと比べ、2倍のトレーニング収束と5倍のステップタイムを示す。
下流タスク評価では、Brainformerは、GLaMと同様の数のアクティベートパラメータを持つよりも、微調整で、3%高いSuperGLUEスコアを示す。
最後に、Brainformerは、スナップショット評価においてトークン毎の同様の計算でNASで導出されたプライマー密度モデルよりも大幅に優れている。
関連論文リスト
- Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文 参考訳(メタデータ) (2023-10-26T14:43:07Z) - H-DenseFormer: An Efficient Hybrid Densely Connected Transformer for
Multimodal Tumor Segmentation [5.999728323822383]
本稿では,H-DenseFormerという腫瘍分割のためのハイブリッドネットワークを提案する。
具体的には、H-DenseFormerはTransformerベースのMulti-path Parallel Embedding (MPE)モジュールを統合する。
実験の結果,提案手法は計算量が少なく,既存の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-07-04T05:31:09Z) - Wide Attention Is The Way Forward For Transformers [9.252523881586054]
幅広い単一層トランスフォーマーモデルでは,自然言語処理(NLP)タスクにおいて,より深い処理と競合したり,より優れたりすることを示す。
以上の結果から,NLP用トランスフォーマーの開発において重要な方向は幅であり,深度はそれほど重要でないことが示唆された。
論文 参考訳(メタデータ) (2022-10-02T21:49:54Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。