論文の概要: SkelVIT: Consensus of Vision Transformers for a Lightweight
Skeleton-Based Action Recognition System
- arxiv url: http://arxiv.org/abs/2311.08094v2
- Date: Thu, 7 Mar 2024 07:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:38:28.072318
- Title: SkelVIT: Consensus of Vision Transformers for a Lightweight
Skeleton-Based Action Recognition System
- Title(参考訳): SkelVIT:軽量骨格型行動認識システムのための視覚変換器のコンセンサス
- Authors: Ozge Oztimur Karadag
- Abstract要約: 骨格に基づく行動認識は、視点や照明の変化に対して堅牢であるため、多くの研究者の注目を集めている。
深層学習モデルの出現に伴い、擬似画像形式で骨格データを表現し、CNNを行動認識に適用することが非常に一般的になった。
近年、注意ネットワーク、特にトランスフォーマーは様々な視覚問題において有望な結果をもたらしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition receives the attention of many researchers
as it is robust to viewpoint and illumination changes, and its processing is
much more efficient than the processing of video frames. With the emergence of
deep learning models, it has become very popular to represent the skeleton data
in pseudo-image form and apply CNN for action recognition. Thereafter, studies
concentrated on finding effective methods for forming pseudo-images. Recently,
attention networks, more specifically transformers have provided promising
results in various vision problems. In this study, the effectiveness of VIT for
skeleton-based action recognition is examined and its robustness on the
pseudo-image representation scheme is investigated. To this end, a three-level
architecture, SkelVit is proposed, which forms a set of pseudo images, applies
a classifier on each of the representations, and combines their results to find
the final action class. The performance of SkelVit is examined thoroughly via a
set of experiments. First, the sensitivity of the system to representation is
investigated by comparing it with two of the state-of-the-art pseudo-image
representation methods. Then, the classifiers of SkelVit are realized in two
experimental setups by CNNs and VITs, and their performances are compared. In
the final experimental setup, the contribution of combining classifiers is
examined by applying the model with a different number of classifiers.
Experimental studies reveal that the proposed system with its lightweight
representation scheme achieves better results than the state-of-the-art
methods. It is also observed that the vision transformer is less sensitive to
the initial pseudo-image representation compared to CNN. Nevertheless, even
with the vision transformer, the recognition performance can be further
improved by the consensus of classifiers.
- Abstract(参考訳): スケルトンに基づく行動認識は、視点や照明の変化に頑健であり、その処理はビデオフレームの処理よりもはるかに効率的であるため、多くの研究者の注目を集めている。
深層学習モデルの出現に伴い、擬似画像形式で骨格データを表現し、CNNを行動認識に適用することが非常に一般的になった。
その後、研究は擬似画像の形成に有効な方法を見つけることに集中した。
近年、アテンションネットワーク、特にトランスフォーマーは様々な視覚問題に有望な結果をもたらしている。
本研究では,骨格型行動認識におけるVITの有効性について検討し,擬似画像表現方式における頑健性について検討した。
この目的のために、擬似画像の集合を形成する3レベルアーキテクチャであるSkelVitが提案され、それぞれの表現に分類器を適用し、結果を組み合わせて最終的なアクションクラスを見つける。
SkelVitの性能は一連の実験を通して徹底的に検証される。
まず,システムの表現に対する感度を,最先端の2つの擬似画像表現法と比較することにより検討する。
次に、CNNとVITによってSkelVitの分類器を2つの実験装置で実現し、その性能を比較する。
最終実験では,異なる数の分類器を用いたモデルを適用することにより,分類器の組み合わせの寄与を検証した。
実験により,提案方式の軽量化が最先端手法よりも良好な結果が得られることを明らかにした。
また、視覚トランスフォーマーはcnnに比べて初期擬似画像表現に対する感度が低いことも観察された。
それでも、視覚変換器であっても、分類器のコンセンサスにより認識性能をさらに向上させることができる。
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Visual Imitation Learning with Calibrated Contrastive Representation [44.63125396964309]
AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。
本稿では、視覚的AILフレームワークにコントラスト型代表学習を組み込むことにより、シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:18:30Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - Human Action Recognition in Still Images Using ConViT [0.11510009152620665]
本稿では、視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。
提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。
論文 参考訳(メタデータ) (2023-07-18T06:15:23Z) - Leveraging Systematic Knowledge of 2D Transformations [6.668181653599057]
人間は、たとえ画像のシーンが珍しいとしても、画像を解釈する素晴らしい能力を持っている。
本研究は,1)2次元変換の体系的知識の獲得,2)画像分類タスクにおける学習知識を活用可能なアーキテクチャコンポーネントに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T06:46:12Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。