論文の概要: Transformer on a Diet
- arxiv url: http://arxiv.org/abs/2002.06170v1
- Date: Fri, 14 Feb 2020 18:41:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 03:55:31.121110
- Title: Transformer on a Diet
- Title(参考訳): ダイエットの変圧器
- Authors: Chenguang Wang, Zihao Ye, Aston Zhang, Zheng Zhang, Alexander J. Smola
- Abstract要約: トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
- 参考スコア(独自算出の注目度): 81.09119185568296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has been widely used thanks to its ability to capture sequence
information in an efficient way. However, recent developments, such as BERT and
GPT-2, deliver only heavy architectures with a focus on effectiveness. In this
paper, we explore three carefully-designed light Transformer architectures to
figure out whether the Transformer with less computations could produce
competitive results. Experimental results on language model benchmark datasets
hint that such trade-off is promising, and the light Transformer reduces 70%
parameters at best, while obtains competitive perplexity compared to standard
Transformer. The source code is publicly available.
- Abstract(参考訳): トランスフォーマーは、シーケンス情報を効率的にキャプチャする能力のおかげで、広く使われている。
しかし、BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
本稿では,より少ない計算量を持つトランスフォーマーが競合する結果をもたらすかどうかを明らかにするために,慎重に設計された3つの光トランスアーキテクチャについて検討する。
言語モデルベンチマークデータセットの実験結果から,そのようなトレードオフが期待できることが示唆され,ライトトランスフォーマーは70%のパラメータをベストに削減する一方で,標準トランスフォーマーと比較して競合的なパープレキシティを得ることができる。
ソースコードは公開されている。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - Enhanced Transformer Architecture for Natural Language Processing [2.6071653283020915]
Transformerは自然言語処理(NLP)分野における最先端モデルである
本稿では,トランスフォーマーの新たな構造を提案し,全層正規化,重み付け残差接続,強化学習を利用した位置符号化,マスク付き自己注意が特徴である。
The proposed Transformer model, called Enhanced Transformer, is confirmeded by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset。
論文 参考訳(メタデータ) (2023-10-17T01:59:07Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。
我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。
実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-08-03T12:57:00Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost [110.67392881417777]
トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。
具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
論文 参考訳(メタデータ) (2021-04-11T07:43:19Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。