論文の概要: Higher Order Transformers: Efficient Attention Mechanism for Tensor Structured Data
- arxiv url: http://arxiv.org/abs/2412.02919v1
- Date: Wed, 04 Dec 2024 00:10:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:37.132485
- Title: Higher Order Transformers: Efficient Attention Mechanism for Tensor Structured Data
- Title(参考訳): 高次変圧器:テンソル構造データに対する効率的な注意機構
- Authors: Soroush Omranpour, Guillaume Rabusseau, Reihaneh Rabbany,
- Abstract要約: 高次変換器(英: Higher-order Transformer、HOT)は、高次テンソル(英語版)と呼ばれる2つ以上の軸を持つデータを処理するように設計されている。
高次テンソルアテンションに関連する計算問題に対処するために、新しいクロネッカー分解アテンション機構を導入する。
多変量時系列予測と3次元医用画像分類を含む2つの高次元課題に対するHOTの有効性を検証する。
- 参考スコア(独自算出の注目度): 10.327160288730125
- License:
- Abstract: Transformers are now ubiquitous for sequence modeling tasks, but their extension to multi-dimensional data remains a challenge due to the quadratic cost of the attention mechanism. In this paper, we propose Higher-Order Transformers (HOT), a novel architecture designed to efficiently process data with more than two axes, i.e. higher-order tensors. To address the computational challenges associated with high-order tensor attention, we introduce a novel Kronecker factorized attention mechanism that reduces the attention cost to quadratic in each axis' dimension, rather than quadratic in the total size of the input tensor. To further enhance efficiency, HOT leverages kernelized attention, reducing the complexity to linear. This strategy maintains the model's expressiveness while enabling scalable attention computation. We validate the effectiveness of HOT on two high-dimensional tasks, including multivariate time series forecasting, and 3D medical image classification. Experimental results demonstrate that HOT achieves competitive performance while significantly improving computational efficiency, showcasing its potential for tackling a wide range of complex, multi-dimensional data.
- Abstract(参考訳): 現在、トランスフォーマーはシーケンスモデリングタスクにはユビキタスであるが、アテンション機構の2次コストのため、多次元データへの拡張は依然として課題である。
本稿では,高次テンソルを2つ以上の軸で効率的に処理できる新しいアーキテクチャであるHigher-Order Transformers (HOT)を提案する。
高次テンソルアテンションに関連する計算問題に対処するため、入力テンソルの総サイズを2倍にするのではなく、各軸の次元において注意コストを2倍に削減する新しいクロネッカー分解アテンション機構を導入する。
効率をさらに高めるため、HOTはカーネル化された注意を生かし、複雑さを線形に減らした。
この戦略は、スケーラブルな注意計算を可能にしながら、モデルの表現性を維持する。
多変量時系列予測と3次元医用画像分類を含む2つの高次元課題に対するHOTの有効性を検証する。
実験結果から,HOTは計算効率を著しく向上させながら,幅広い複雑な多次元データを扱う可能性を示した。
関連論文リスト
- DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
拡散変換器(DiT)は、高品質なビデオのモデリングと生成において顕著な性能を示した。
本稿では,ビデオDiTのトレーニングを加速し,拡張するための新しいフレームワークであるDSVを紹介する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (2024-12-07T13:15:22Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - ELASTIC: Efficient Linear Attention for Sequential Interest Compression [5.689306819772134]
最先端のシーケンシャルレコメンデーションモデルは、トランスフォーマーの注意機構に大きく依存している。
逐次的関心圧縮のための効率的な線形注意法であるELASTICを提案する。
我々は、様々な公開データセットに関する広範な実験を行い、それをいくつかの強力なシーケンシャルなレコメンデータと比較する。
論文 参考訳(メタデータ) (2024-08-18T06:41:46Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - Kronecker Attention Networks [69.22257624495899]
我々は,高次テンソルデータを直接操作するKronecker attention operator (KAOs) を開発した。
その結果,本手法は必要な計算資源の量を数百倍に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-16T16:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。