論文の概要: HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition
- arxiv url: http://arxiv.org/abs/2502.05869v1
- Date: Sun, 09 Feb 2025 12:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:02.218859
- Title: HyLiFormer: Hyperbolic Linear Attention for Skeleton-based Human Action Recognition
- Title(参考訳): HyLiFormer: 骨格に基づく人行動認識のための双曲線形注意
- Authors: Yue Li, Haoxuan Qu, Mengyuan Liu, Jun Liu, Yujun Cai,
- Abstract要約: 骨格に基づく行動認識に適した新しい双曲線形アテンション変換器HyLiFormerを提案する。
提案手法では,ハイパーボリック・リニア・アテンション(HLA)モジュールと,ハイパーボリック・リニア・アテンション(Hyperbolic Linear Attention, HLA)モジュールを併用して,高速な長距離依存性モデリングを行う。
- 参考スコア(独自算出の注目度): 20.45747733568704
- License:
- Abstract: Transformers have demonstrated remarkable performance in skeleton-based human action recognition, yet their quadratic computational complexity remains a bottleneck for real-world applications. To mitigate this, linear attention mechanisms have been explored but struggle to capture the hierarchical structure of skeleton data. Meanwhile, the Poincar\'e model, as a typical hyperbolic geometry, offers a powerful framework for modeling hierarchical structures but lacks well-defined operations for existing mainstream linear attention. In this paper, we propose HyLiFormer, a novel hyperbolic linear attention Transformer tailored for skeleton-based action recognition. Our approach incorporates a Hyperbolic Transformation with Curvatures (HTC) module to map skeleton data into hyperbolic space and a Hyperbolic Linear Attention (HLA) module for efficient long-range dependency modeling. Theoretical analysis and extensive experiments on NTU RGB+D and NTU RGB+D 120 datasets demonstrate that HyLiFormer significantly reduces computational complexity while preserving model accuracy, making it a promising solution for efficiency-critical applications.
- Abstract(参考訳): トランスフォーマーは骨格に基づく人間の行動認識において顕著な性能を示してきたが、その二次計算の複雑さは現実世界のアプリケーションではボトルネックのままである。
これを軽減するために、線形注意機構が検討されているが、骨格データの階層構造を捉えるのに苦労している。
一方、典型的な双曲幾何学としての Poincar\'e モデルは階層構造をモデル化するための強力なフレームワークを提供するが、既存の主流線形注意に対して十分に定義された操作を欠いている。
本稿では,骨格に基づく行動認識に適した新しい双曲線形アテンション変換器HyLiFormerを提案する。
提案手法では,ハイパーボリック・リニア・アテンション(HLA)モジュールと,ハイパーボリック・リニア・アテンション(Hyperbolic Linear Attention, HLA)モジュールを併用して,高速な長距離依存性モデリングを行う。
NTU RGB+D および NTU RGB+D 120 データセットに関する理論的解析と広範な実験により、HyLiFormer はモデル精度を維持しながら計算複雑性を著しく低減し、効率クリティカルなアプリケーションにとって有望なソリューションであることが示された。
関連論文リスト
- ReGLA: Refining Gated Linear Attention [42.97193398172823]
線形注意は、標準変圧器に固有の2次時空の複雑さを減らすように設計されている。
我々は、以前の提案が見落としていたいくつかの重要な問題に対処する機能マッピング機能を開発した。
また, ゲーティング機構の飽和現象を探索し, 精製モジュールで補強した。
論文 参考訳(メタデータ) (2025-02-03T18:03:13Z) - CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up [64.38715211969516]
CLEARと呼ばれる畳み込み型ローカルアテンション戦略を導入し,各クエリトークンの周囲のローカルウィンドウに特徴的インタラクションを限定する。
実験により,10K反復で10Kの自己生成サンプルに注意層を微調整することにより,事前学習したDiTから線形複雑度のある学生モデルへの知識伝達を効果的に行うことができた。
論文 参考訳(メタデータ) (2024-12-20T17:57:09Z) - Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。
本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-11-29T23:32:26Z) - Autoregressive Adaptive Hypergraph Transformer for Skeleton-based Activity Recognition [3.700463358780727]
本稿では,自己回帰型適応型ハイパーグラフ変換器(AutoregAd-HGformer)モデルを提案する。
強力な自己回帰学習先を備えたベクトル量子化内相ハイパーグラフは、ハイパーエッジ形成に適したより堅牢で情報的な表現を生成する。
AutoregAd-HGformerにおけるハイブリッド(教師なし、教師なし)学習は、空間的、時間的、チャネル次元に沿った行動依存的な特徴を探索する。
論文 参考訳(メタデータ) (2024-11-08T16:45:52Z) - SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.016335384639901]
AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。
我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。
提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文 参考訳(メタデータ) (2024-06-14T08:43:31Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Hyperbolic Variational Graph Neural Network for Modeling Dynamic Graphs [77.33781731432163]
我々は,ノード表現の推論を目的とした双曲空間における動的グラフ表現を初めて学習する。
本稿では,HVGNNと呼ばれる新しいハイパーボリック変動グラフネットワークを提案する。
特に,動力学をモデル化するために,理論的に接地した時間符号化手法に基づく時間gnn(tgnn)を導入する。
論文 参考訳(メタデータ) (2021-04-06T01:44:15Z) - Parameterized Hypercomplex Graph Neural Networks for Graph
Classification [1.1852406625172216]
我々は超複雑特徴変換の特性を利用するグラフニューラルネットワークを開発した。
特に、提案したモデルのクラスでは、代数自身を特定する乗法則は、トレーニング中にデータから推測される。
提案するハイパーコンプレックスgnnをいくつかのオープングラフベンチマークデータセット上でテストし,そのモデルが最先端の性能に達することを示す。
論文 参考訳(メタデータ) (2021-03-30T18:01:06Z) - Hyperbolic Neural Networks++ [66.16106727715061]
ニューラルネットワークの基本成分を1つの双曲幾何モデル、すなわちポアンカーの球モデルで一般化する。
実験により, 従来の双曲成分と比較してパラメータ効率が優れ, ユークリッド成分よりも安定性と性能が優れていた。
論文 参考訳(メタデータ) (2020-06-15T08:23:20Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - Learning Bijective Feature Maps for Linear ICA [73.85904548374575]
画像データに適した既存の確率的深層生成モデル (DGM) は, 非線形ICAタスクでは不十分であることを示す。
そこで本研究では,2次元特徴写像と線形ICAモデルを組み合わせることで,高次元データに対する解釈可能な潜在構造を学習するDGMを提案する。
画像上のフローベースモデルや線形ICA、変分オートエンコーダよりも、高速に収束し、訓練が容易なモデルを作成し、教師なしの潜在因子発見を実現する。
論文 参考訳(メタデータ) (2020-02-18T17:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。