論文の概要: When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants
- arxiv url: http://arxiv.org/abs/2306.08667v1
- Date: Wed, 14 Jun 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 17:51:38.000989
- Title: When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants
- Title(参考訳): 効率的な自己注意をいつ使うのか?
テキスト・音声・画像変換器バリアントのプロファイリング
- Authors: Anuj Diwan, Eunsol Choi, David Harwath
- Abstract要約: 本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
- 参考スコア(独自算出の注目度): 39.00433193973159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first unified study of the efficiency of self-attention-based
Transformer variants spanning text, speech and vision. We identify input length
thresholds (tipping points) at which efficient Transformer variants become more
efficient than vanilla models, using a variety of efficiency metrics (latency,
throughput, and memory). To conduct this analysis for speech, we introduce
L-HuBERT, a novel local-attention variant of a self-supervised speech model. We
observe that these thresholds are (a) much higher than typical dataset sequence
lengths and (b) dependent on the metric and modality, showing that choosing the
right model depends on modality, task type (long-form vs. typical context) and
resource constraints (time vs. memory). By visualising the breakdown of the
computational costs for transformer components, we also show that
non-self-attention components exhibit significant computational costs. We
release our profiling toolkit at
https://github.com/ajd12342/profiling-transformers .
- Abstract(参考訳): 本稿では,テキスト,音声,視覚にまたがる自己着脱型変圧器の効率に関する最初の統一研究を行う。
我々は、様々な効率指標(レイテンシ、スループット、メモリ)を用いて、効率的なトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タップポイント)を同定する。
そこで,本研究では,自己教師付き音声モデルの局所的対応型であるl-hubertを提案する。
これらのしきい値は
a) 典型的なデータセットのシーケンスの長さよりもはるかに高い
(b)計量とモダリティに依存しており、正しいモデルを選択することはモダリティ、タスクタイプ(一般的なコンテキストとロングフォーム)、リソース制約(時間対メモリ)に依存することを示している。
また, 変圧器部品の計算コストの推移を可視化することにより, 非自己注意部品は計算コストが著しく高いことを示す。
私たちはプロファイリングツールキットをhttps://github.com/ajd12342/profiling-transformersでリリースします。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - A Transformer-based Framework For Multi-variate Time Series: A Remaining
Useful Life Prediction Use Case [4.0466311968093365]
本研究は,時系列予測のためのエンコーダ変換アーキテクチャに基づくフレームワークを提案する。
C-MAPPSベンチマークデータセットの4セットすべてに対して,提案手法の有効性を検証した。
機械寿命の初期段階と劣化経路のモデル認識を可能にするため, 新たな拡張窓手法が提案された。
論文 参考訳(メタデータ) (2023-08-19T02:30:35Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - A Time Series is Worth 64 Words: Long-term Forecasting with Transformers [4.635547236305835]
本稿では,時系列予測と自己教師型表現学習のためのトランスフォーマーモデルを提案する。
i) 時系列をサブシリーズレベルのパッチに分割し、Transformerへの入力トークンとして機能させる。
PatchTSTは、SOTA Transformerベースのモデルと比較して、長期予測精度を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-27T05:15:42Z) - Transformer-F: A Transformer network with effective methods for learning
universal sentence representation [8.225067988604351]
Transformerモデルは、自然言語処理で文表現に広く使われている。
本稿では,トランスフォーマーの性能向上のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-07-02T03:20:11Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。