論文の概要: Continual Transformers: Redundancy-Free Attention for Online Inference
- arxiv url: http://arxiv.org/abs/2201.06268v1
- Date: Mon, 17 Jan 2022 08:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 13:28:58.216861
- Title: Continual Transformers: Redundancy-Free Attention for Online Inference
- Title(参考訳): 連続トランスフォーマー:冗長性のないオンライン推論
- Authors: Lukas Hedegaard and Arian Bakhtiarnia and Alexandros Iosifidis
- Abstract要約: 連続的な入力ストリームにおいて、トランスフォーマーが効率的なオンライントークン・バイ・トケン推論を行うことができるスケールド・ドット・プロダクト・アテンション(Scaled Dot-Product Attention)の新たな定式化を提案する。
我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
- 参考スコア(独自算出の注目度): 86.3361797111839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are attention-based sequence transduction models, which have
found widespread success in Natural Language Processing and Computer Vision
applications. Yet, Transformers in their current form are inherently limited to
operate on whole token sequences rather than on one token at a time.
Consequently, their use during online inference entails considerable redundancy
due to the overlap in successive token sequences. In this work, we propose
novel formulations of the Scaled Dot-Product Attention, which enable
Transformers to perform efficient online token-by-token inference in a
continual input stream. Importantly, our modification is purely to the order of
computations, while the produced outputs and learned weights are identical to
those of the original Multi-Head Attention. To validate our approach, we
conduct experiments on visual, audio, and audio-visual classification and
detection tasks, i.e. Online Action Detection on THUMOS14 and TVSeries and
Online Audio Classification on GTZAN, with remarkable results. Our continual
one-block transformers reduce the floating point operations by respectively
63.5x and 51.5x in the Online Action Detection and Audio Classification
experiments at similar predictive performance.
- Abstract(参考訳): トランスフォーマーは注目に基づくシーケンス変換モデルであり、自然言語処理やコンピュータビジョンアプリケーションで広く成功している。
しかし、現在の形式でのトランスフォーマーは、本質的に1つのトークンではなく、トークンシーケンス全体の操作に限られています。
その結果、オンライン推論におけるそれらの使用には、連続したトークンシーケンスの重複によるかなりの冗長性が伴う。
本研究では,連続入力ストリームにおいて,トランスフォーマが効率的なオンライントークン・バイ・トケン推論を実現するための,スケールド・ドット・プロダクト・アテンションの新規な定式化を提案する。
重要なことは、我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
提案手法を検証するために, THUMOS14とTVSeriesのオンライン行動検出, GTZANのオンライン音声分類など, 視覚的, 音声的, 音声的, 視覚的分類および検出タスクの実験を行った。
連続する1ブロックトランスは,同様の予測性能でオンライン動作検出および音声分類実験において,浮動小数点演算を63.5倍,51.5倍削減する。
関連論文リスト
- Mitigating Over-smoothing in Transformers via Regularized Nonlocal
Functionals [31.328766460487355]
変圧器の自己保持層は, 平滑化を促進する機能を最小限に抑え, トークンの均一性をもたらすことを示す。
本稿では, 自己注意からのスムーズな出力トークンと入力トークンとの差分を正規化して, トークンの忠実性を維持するための新たな正規化器を提案する。
我々は,トークン表現の過度な平滑化を低減するために,ベースライントランスフォーマーと最先端手法に対するNeuTRENOの利点を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-01T17:52:47Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers [24.109312575970456]
そこで本研究では,オフザシェルフ事前学習型トランスフォーマーにおいて,より長いシーケンス処理を実現するための簡単なフレームワークを提案する。
提案手法では,各時系列入力をチャンクのバッチに分割し,エンコーディングステップ中にインターチャンク情報をアライメントする。
我々は,変圧器のデコーダを環境とみなす効果的な隠れ選択ポリシーを学習する。
論文 参考訳(メタデータ) (2023-08-25T05:52:05Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。