論文の概要: Continual Low-Rank Scaled Dot-product Attention
- arxiv url: http://arxiv.org/abs/2412.03214v1
- Date: Wed, 04 Dec 2024 11:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:21.952728
- Title: Continual Low-Rank Scaled Dot-product Attention
- Title(参考訳): 連続低ランクスケールDot-productアテンション
- Authors: Ginés Carreto Picón, Illia Oleksiienko, Lukas Hedegaard, Arian Bakhtiarnia, Alexandros Iosifidis,
- Abstract要約: 我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
- 参考スコア(独自算出の注目度): 67.11704350478475
- License:
- Abstract: Transformers are widely used for their ability to capture data relations in sequence processing, with great success for a wide range of static tasks. However, the computational and memory footprint of their main component, i.e., the Scaled Dot-product Attention, is commonly overlooked. This makes their adoption in applications involving stream data processing with constraints in response latency, computational and memory resources infeasible. Some works have proposed methods to lower the computational cost of transformers, i.e. low-rank approximations, sparsity in attention, and efficient formulations for Continual Inference. In this paper, we introduce a new formulation of the Scaled Dot-product Attention based on the Nystr\"om approximation that is suitable for Continual Inference. In experiments on Online Audio Classification and Online Action Detection tasks, the proposed Continual Scaled Dot-product Attention can lower the number of operations by up to three orders of magnitude compared to the original Transformers while retaining the predictive performance of competing models.
- Abstract(参考訳): トランスフォーマーはシーケンス処理でデータ関係をキャプチャする能力に広く使われており、広範囲の静的タスクで大きな成功を収めている。
しかし、その主成分であるスケールドドット積注意(Scaled Dot-product Attention)の計算とメモリのフットプリントは一般的に見過ごされている。
これにより、応答待ち時間、計算リソース、メモリリソースに制約のあるストリームデータ処理を含むアプリケーションに採用される。
いくつかの研究は、変圧器の計算コストを下げる手法、すなわち低ランク近似、注意の空間性、連続推論のための効率的な定式化を提案している。
本稿では,連続推論に適したNystr\"om approximationに基づく大規模Dot-product Attentionの新しい定式化を提案する。
オンライン音声分類とオンライン行動検出タスクの実験において、提案した連続的スケールドプロダクト注意は、競合するモデルの予測性能を維持しながら、元のトランスフォーマーと比較して最大3桁の操作数を削減できる。
関連論文リスト
- ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Continual Transformers: Redundancy-Free Attention for Online Inference [86.3361797111839]
連続的な入力ストリームにおいて、トランスフォーマーが効率的なオンライントークン・バイ・トケン推論を行うことができるスケールド・ドット・プロダクト・アテンション(Scaled Dot-Product Attention)の新たな定式化を提案する。
我々の修正は純粋に計算順に行われ、生成した出力と学習重量は元のマルチヘッド注意のものと同一である。
論文 参考訳(メタデータ) (2022-01-17T08:20:09Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - ASFormer: Transformer for Action Segmentation [9.509416095106493]
本稿では,アクションセグメンテーションタスクのための効率的なトランスフォーマーベースモデルASFormerを提案する。
信頼された範囲内で仮説空間を制約し、アクションセグメンテーションタスクが小さなトレーニングセットで適切なターゲット関数を学習するのに有益である。
我々は、長い入力シーケンスを効率的に処理する事前定義された階層表現パターンを適用した。
論文 参考訳(メタデータ) (2021-10-16T13:07:20Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Consistent Accelerated Inference via Confident Adaptive Transformers [29.034390810078172]
我々は,大規模で高価な多層トランスの推論を確実に高速化する新しい手法を開発した。
また,本モデルとの確固たる一貫性を高い信頼度で保証しつつ,計算効率を向上させる。
このアプローチの有効性を4つの分類および回帰タスクで実証する。
論文 参考訳(メタデータ) (2021-04-18T10:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。