論文の概要: Act-VIT: A Representationally Robust Attention Architecture for Skeleton
Based Action Recognition Using Vision Transformer
- arxiv url: http://arxiv.org/abs/2311.08094v1
- Date: Tue, 14 Nov 2023 11:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 14:27:44.991318
- Title: Act-VIT: A Representationally Robust Attention Architecture for Skeleton
Based Action Recognition Using Vision Transformer
- Title(参考訳): Act-VIT:視覚変換器を用いた骨格に基づく行動認識のための表現的ロバスト注意アーキテクチャ
- Authors: Ozge Oztimur Karadag
- Abstract要約: 擬似画像形式で骨格データを表現し、行動認識に畳み込みニューラルネットワークを適用することは、非常に人気がある。
近年、注意ネットワーク、特にトランスフォーマーは様々な視覚問題において有望な結果をもたらしている。
本研究では,骨格型行動認識における視覚変換器の有効性について検討し,擬似画像表現方式における頑健性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skeleton-based action recognition receives the attention of many researchers
as it is robust to viewpoint and illumination changes, and its processing is
much more efficient than video frames. With the emergence of deep learning
models, it has become very popular to represent the skeleton data in
pseudo-image form and apply Convolutional Neural Networks for action
recognition. Thereafter, studies concentrated on finding effective methods for
forming pseudo-images. Recently, attention networks, more specifically
transformers have provided promising results in various vision problems. In
this study, the effectiveness of vision transformers for skeleton-based action
recognition is examined and its robustness on the pseudo-image representation
scheme is investigated. To this end, a three-level architecture, Act-VIT is
proposed, which forms a set of pseudo images apply a classifier on each of the
representation and combine their results to find the final action class. The
classifiers of Act-VIT are first realized by CNNs and then by VITs and their
performances are compared. Experimental studies reveal that the vision
transformer is less sensitive to the initial pseudo-image representation
compared to CNN. Nevertheless, even with the vision transformer, the
recognition performance can be further improved by consensus of classifiers.
- Abstract(参考訳): スケルトンベースのアクション認識は、視点や照明の変化に頑健であり、その処理はビデオフレームよりもはるかに効率的であるため、多くの研究者の注目を集めている。
深層学習モデルの出現に伴い、擬似イメージ形式で骨格データを表現し、行動認識に畳み込みニューラルネットワークを適用することが非常に一般的になった。
その後、研究は擬似画像の形成に有効な方法を見つけることに集中した。
近年、アテンションネットワーク、特にトランスフォーマーは様々な視覚問題に有望な結果をもたらしている。
本研究では,骨格型行動認識における視覚変換器の有効性について検討し,擬似画像表現方式における頑健性について検討した。
この目的のために、3レベルアーキテクチャであるAct-VITが提案され、擬似画像の集合が各表現に分類器を適用し、その結果を組み合わせて最終アクションクラスを見つける。
Act-VITの分類器はまずCNNによって実現され、次にVITによって比較される。
実験的研究により、視覚トランスフォーマーはcnnに比べて初期擬似画像表現に対する感度が低いことが判明した。
それでも、視覚変換器であっても、識別性能は分類器のコンセンサスによりさらに向上することができる。
関連論文リスト
- Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Visual Imitation Learning with Calibrated Contrastive Representation [44.63125396964309]
AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。
本稿では、視覚的AILフレームワークにコントラスト型代表学習を組み込むことにより、シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:18:30Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Foveation in the Era of Deep Learning [6.602118206533142]
本稿では,グラフ畳み込みネットワークを利用してフェーブ化された画像を処理する,エンドツーエンドで微分可能なアクティブ・ビジョン・アーキテクチャを提案する。
我々のモデルは、分類に関連する画像の領域に反復的に出席することを学ぶ。
我々のモデルは最先端のCNNと、同等のパラメータと与えられたピクセルや予算の視覚アーキテクチャより優れています。
論文 参考訳(メタデータ) (2023-12-03T16:48:09Z) - SkeleTR: Towrads Skeleton-based Action Recognition in the Wild [86.03082891242698]
SkeleTRは骨格に基づく行動認識のための新しいフレームワークである。
まず、グラフ畳み込みによる各骨格配列の人体内骨格力学をモデル化する。
次に、スタック化されたTransformerエンコーダを使用して、一般的なシナリオにおけるアクション認識に重要な人物のインタラクションをキャプチャする。
論文 参考訳(メタデータ) (2023-09-20T16:22:33Z) - Human Action Recognition in Still Images Using ConViT [0.11510009152620665]
本稿では、視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。
提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。
論文 参考訳(メタデータ) (2023-07-18T06:15:23Z) - Leveraging Systematic Knowledge of 2D Transformations [6.668181653599057]
人間は、たとえ画像のシーンが珍しいとしても、画像を解釈する素晴らしい能力を持っている。
本研究は,1)2次元変換の体系的知識の獲得,2)画像分類タスクにおける学習知識を活用可能なアーキテクチャコンポーネントに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T06:46:12Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。