論文の概要: Hierarchical Transformers Are More Efficient Language Models
- arxiv url: http://arxiv.org/abs/2110.13711v1
- Date: Tue, 26 Oct 2021 14:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 13:48:57.050591
- Title: Hierarchical Transformers Are More Efficient Language Models
- Title(参考訳): 階層型トランスフォーマーはより効率的な言語モデルである
- Authors: Piotr Nawrot, Szymon Tworkowski, Micha{\l} Tyrolski, {\L}ukasz Kaiser,
Yuhuai Wu, Christian Szegedy, Henryk Michalewski
- Abstract要約: トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。
注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。
我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
- 参考スコア(独自算出の注目度): 19.061388006885686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models yield impressive results on many NLP and sequence modeling
tasks. Remarkably, Transformers can handle long sequences which allows them to
produce long coherent outputs: full paragraphs produced by GPT-3 or
well-structured images produced by DALL-E. These large language models are
impressive but also very inefficient and costly, which limits their
applications and accessibility. We postulate that having an explicit
hierarchical architecture is the key to Transformers that efficiently handle
long sequences. To verify this claim, we first study different ways to
downsample and upsample activations in Transformers so as to make them
hierarchical. We use the best performing upsampling and downsampling layers to
create Hourglass - a hierarchical Transformer language model. Hourglass
improves upon the Transformer baseline given the same amount of computation and
can yield the same results as Transformers more efficiently. In particular,
Hourglass sets new state-of-the-art for Transformer models on the ImageNet32
generation task and improves language modeling efficiency on the widely studied
enwik8 benchmark.
- Abstract(参考訳): トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。
注目すべきなのは、Transformerは長いシーケンスを処理して、長いコヒーレントな出力を生成することができることだ。
これらの大きな言語モデルは印象的だが、非常に非効率でコストがかかり、アプリケーションとアクセシビリティが制限される。
我々は、明示的な階層構造を持つことが、長いシーケンスを効率的に処理するトランスフォーマーの鍵であると仮定する。
この主張を検証するために、まずトランスフォーマーのアクティベーションを階層的にするために、ダウンサンプルとアップサンプルの異なる方法を研究します。
最高のパフォーマンスアップサンプリングとダウンサンプリングレイヤを使用して、階層的トランスフォーマー言語モデルであるhourglassを作成します。
hourglassは、同じ計算量でトランスフォーマーのベースラインを改善し、トランスフォーマーと同じ結果をより効率的に得ることができる。
特に、HourglassはImageNet32生成タスクでTransformerモデルの最先端を新たに設定し、広く研究されているenwik8ベンチマークで言語モデリングの効率を改善する。
関連論文リスト
- Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - I3D: Transformer architectures with input-dependent dynamic depth for
speech recognition [41.35563331283372]
本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。
また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
論文 参考訳(メタデータ) (2023-03-14T04:47:00Z) - Foundation Transformers [105.06915886136524]
我々は、真の汎用モデリングのためのファンデーショントランスフォーマーの開発を求めている。
本研究では,その目的を達成するための変圧器の変種であるマグニートーを導入する。
論文 参考訳(メタデータ) (2022-10-12T17:16:27Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Vis-TOP: Visual Transformer Overlay Processor [9.80151619872144]
Transformerは自然言語処理(NLP)で優れた成果を上げており、コンピュータビジョン(CV)にも拡張し始めている。
様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOPを提案する。
Vis-TOPは、全ての視覚変換器モデルの特徴を要約し、3層および2層変換構造を実装している。
論文 参考訳(メタデータ) (2021-10-21T08:11:12Z) - Language Modeling using LMUs: 10x Better Data Efficiency or Improved
Scaling Compared to Transformers [4.899818550820576]
シーケンス処理に先立って,レジェンダメモリ単位をベースとしたモデルを構築した。
我々の新しいアーキテクチャは10倍少ないトークンでトランスフォーマーと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-10-05T23:20:37Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Long Range Arena: A Benchmark for Efficient Transformers [115.1654897514089]
ロングレンジアリーナベンチマーク(Long-rangearena benchmark)は、1Kドルから16Kドルまでの一連のタスクからなるスイートである。
我々は,新たに提案したベンチマークスイートを用いて,よく確立された10種類の長距離トランスフォーマーモデルを体系的に評価した。
論文 参考訳(メタデータ) (2020-11-08T15:53:56Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。