論文の概要: UniSTFormer: Unified Spatio-Temporal Lightweight Transformer for Efficient Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2508.08944v1
- Date: Tue, 12 Aug 2025 13:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.444057
- Title: UniSTFormer: Unified Spatio-Temporal Lightweight Transformer for Efficient Skeleton-Based Action Recognition
- Title(参考訳): UniSTFormer:スケルトンに基づく効率的な行動認識のための統合時空間軽量変圧器
- Authors: Wenhan Wu, Zhishuai Guo, Chen Chen, Aidong Lu,
- Abstract要約: 単一モジュール内に空間的・時間的モデリングを統合する統合時間軽量トランスフォーマフレームワークを提案する。
このアプローチは空間モデリングプロセス内の時間的認識を保ちながら冗長な計算を減らす。
軽量モデルでは,パラメータの複雑性を58%以上削減し,計算コストを60%以上削減できる。
- 参考スコア(独自算出の注目度): 10.696548579611381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition (SAR) has achieved impressive progress with transformer architectures. However, existing methods often rely on complex module compositions and heavy designs, leading to increased parameter counts, high computational costs, and limited scalability. In this paper, we propose a unified spatio-temporal lightweight transformer framework that integrates spatial and temporal modeling within a single attention module, eliminating the need for separate temporal modeling blocks. This approach reduces redundant computations while preserving temporal awareness within the spatial modeling process. Furthermore, we introduce a simplified multi-scale pooling fusion module that combines local and global pooling pathways to enhance the model's ability to capture fine-grained local movements and overarching global motion patterns. Extensive experiments on benchmark datasets demonstrate that our lightweight model achieves a superior balance between accuracy and efficiency, reducing parameter complexity by over 58% and lowering computational cost by over 60% compared to state-of-the-art transformer-based baselines, while maintaining competitive recognition performance.
- Abstract(参考訳): SAR(Skeleton-based action recognition)は、トランスフォーマーアーキテクチャーで目覚ましい進歩を遂げた。
しかし、既存の手法は複雑なモジュールの構成や重い設計に依存しており、パラメータ数の増加、計算コストの増大、スケーラビリティの制限につながっている。
本稿では,空間的および時間的モデリングを単一アテンションモジュールに統合し,時間的モデリングブロックを分離する必要をなくした一元的時空間軽量トランスフォーマフレームワークを提案する。
このアプローチは空間モデリングプロセス内の時間的認識を保ちながら冗長な計算を減らす。
さらに,局所プール経路と大域プール経路を組み合わせた簡易なマルチスケールプール融合モジュールを導入し,局所的な微小な動きを捕捉し,グローバルな動きパターンを網羅するモデルの能力を高める。
ベンチマークデータセットの大規模な実験により、我々の軽量モデルは精度と効率のバランスが良く、パラメータの複雑さは58%以上減少し、計算コストは最先端のトランスフォーマーベースのベースラインに比べて60%以上低下し、競争力のある認識性能を維持していることが示された。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation [9.000760165185532]
これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。
このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
論文 参考訳(メタデータ) (2025-06-05T02:29:04Z) - LeMoRe: Learn More Details for Lightweight Semantic Segmentation [48.81126061219231]
計算効率と表現の忠実さのバランスをとるために、明示的および暗黙的なモデリングを相乗化することによって効率的なパラダイムを導入する。
提案手法は、明確にモデル化されたビューと暗黙的に推論された中間表現とをうまく組み合わせ、グローバルな依存関係を効率的に取得する。
論文 参考訳(メタデータ) (2025-05-29T04:55:10Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - Representation Alignment Contrastive Regularization for Multi-Object Tracking [29.837560662395713]
多目的追跡アルゴリズムのメインストリーム性能は、データアソシエーション段階における重時間関係のモデリングに依存する。
この研究は、深層学習に基づく時間的関係モデルを単純化し、データアソシエーション設計に解釈可能性を導入することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T08:33:08Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。