論文の概要: AdaSGN: Adapting Joint Number and Model Size for Efficient
Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2103.11770v1
- Date: Mon, 22 Mar 2021 12:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:27:48.084958
- Title: AdaSGN: Adapting Joint Number and Model Size for Efficient
Skeleton-Based Action Recognition
- Title(参考訳): adasgn:効率の良いスケルトンベース行動認識のための関節数とモデルサイズ適応
- Authors: Lei Shi, Yifan Zhang, Jian Cheng, Hanqing Lu
- Abstract要約: 既存の骨格に基づく行動認識法は主に認識精度の向上に重点を置いている。
AdaSGNと呼ばれる新しいアプローチが提案され、推論プロセスの計算コストを削減することができる。
- 参考スコア(独自算出の注目度): 45.6728814296272
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing methods for skeleton-based action recognition mainly focus on
improving the recognition accuracy, whereas the efficiency of the model is
rarely considered. Recently, there are some works trying to speed up the
skeleton modeling by designing light-weight modules. However, in addition to
the model size, the amount of the data involved in the calculation is also an
important factor for the running speed, especially for the skeleton data where
most of the joints are redundant or non-informative to identify a specific
skeleton. Besides, previous works usually employ one fix-sized model for all
the samples regardless of the difficulty of recognition, which wastes
computations for easy samples. To address these limitations, a novel approach,
called AdaSGN, is proposed in this paper, which can reduce the computational
cost of the inference process by adaptively controlling the input number of the
joints of the skeleton on-the-fly. Moreover, it can also adaptively select the
optimal model size for each sample to achieve a better trade-off between
accuracy and efficiency. We conduct extensive experiments on three challenging
datasets, namely, NTU-60, NTU-120 and SHREC, to verify the superiority of the
proposed approach, where AdaSGN achieves comparable or even higher performance
with much lower GFLOPs compared with the baseline method.
- Abstract(参考訳): 既存の骨格に基づく行動認識法は主に認識精度の向上に重点を置いているが,モデルの効率性はほとんど考慮されていない。
近年,軽量モジュールの設計によるスケルトンモデリングの高速化が試みられている。
しかしながら、モデルサイズに加えて、計算に関わるデータ量も、特に関節のほとんどが冗長であるか、特定の骨格を特定するのに不適当であるスケルトンデータにとって、実行速度にとって重要な要素である。
さらに、以前の作品では、認識の難しさに関わらず、すべてのサンプルに対して1つの固定サイズのモデルを採用しており、簡単なサンプルの計算を浪費している。
これらの制約に対処するため,本論文では,骨の接合部の入力数をオンザフライで適応的に制御することにより,推論プロセスの計算コストを低減できる新しい手法であるadasgnを提案する。
さらに、各サンプルの最適なモデルサイズを適応的に選択することで、精度と効率のトレードオフをより良くすることができる。
我々は,NTU-60,NTU-120,SHRECの3つの挑戦的データセットに対する広範な実験を行い,提案手法の優位性を検証する。
関連論文リスト
- AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。
本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-26T04:33:13Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Model-agnostic Body Part Relevance Assessment for Pedestrian Detection [4.405053430046726]
歩行者検出のための身体部分関連性評価によるコンピュータビジョンコンテキストにおけるサンプリングに基づく説明モデルを用いたフレームワークを提案する。
我々は,KernelSHAPに類似した新しいサンプリングベース手法を導入し,サンプリングサイズを小さくするために,より堅牢性を示し,大規模データセットにおける説明可能性解析に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-27T10:10:25Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Parallel and Limited Data Voice Conversion Using Stochastic Variational
Deep Kernel Learning [2.5782420501870296]
本稿では,限られたデータを扱う音声変換手法を提案する。
変分深層学習(SVDKL)に基づく。
非滑らかでより複雑な関数を推定することができる。
論文 参考訳(メタデータ) (2023-09-08T16:32:47Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。
まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。
そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-25T14:00:18Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - Stronger, Faster and More Explainable: A Graph Convolutional Baseline
for Skeleton-based Action Recognition [22.90127409366107]
グラフ畳み込みネットワーク(GCN)に基づく効率的だが強力なベースラインを提案する。
畳み込みニューラルネットワーク(CNN)におけるResNetアーキテクチャの成功に触発されたResGCNモジュールがGCNで導入された。
PartAttブロックは、アクションシーケンス全体の上で最も重要な身体部分を発見するために提案される。
論文 参考訳(メタデータ) (2020-10-20T02:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。