論文の概要: Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets
- arxiv url: http://arxiv.org/abs/2506.11678v1
- Date: Fri, 13 Jun 2025 11:16:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.764398
- Title: Pose Matters: Evaluating Vision Transformers and CNNs for Human Action Recognition on Small COCO Subsets
- Title(参考訳): 小さなCOCOサブセットにおける人間の行動認識のための視覚変換器とCNNの評価
- Authors: MingZe Tang, Madiha Kazi,
- Abstract要約: 本研究では,COCO画像コーパスの3クラスサブセットを用いた人間の認識について検討する。
バイナリビジョン変換器(ViT)は90%の平均テスト精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study explores human action recognition using a three-class subset of the COCO image corpus, benchmarking models from simple fully connected networks to transformer architectures. The binary Vision Transformer (ViT) achieved 90% mean test accuracy, significantly exceeding multiclass classifiers such as convolutional networks (approximately 35%) and CLIP-based models (approximately 62-64%). A one-way ANOVA (F = 61.37, p < 0.001) confirmed these differences are statistically significant. Qualitative analysis with SHAP explainer and LeGrad heatmaps indicated that the ViT localizes pose-specific regions (e.g., lower limbs for walking or running), while simpler feed-forward models often focus on background textures, explaining their errors. These findings emphasize the data efficiency of transformer representations and the importance of explainability techniques in diagnosing class-specific failures.
- Abstract(参考訳): 本研究では,COCOイメージコーパスの3クラスサブセットを用いて,単純な完全連結ネットワークからトランスフォーマーアーキテクチャへのモデルベンチマークを行う。
バイナリビジョン変換器(ViT)は90%の平均テスト精度を達成し、畳み込みネットワーク(約35%)やCLIPベースのモデル(約62-64%)といったマルチクラス分類器をはるかに上回った。
片道ANOVA (F = 61.37, p < 0.001) により、これらの差は統計的に有意であることが確認された。
SHAP説明器とLeGradのヒートマップによる質的分析では、ViTはポーズ固有の領域(例えば歩行やランニングのための下肢)を局在させ、単純なフィードフォワードモデルは背景テクスチャにフォーカスし、それらのエラーを説明することが多かった。
これらの知見は, 変圧器表現のデータ効率と, クラス固有の故障の診断における説明可能性技術の重要性を強調した。
関連論文リスト
- Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
Vision Transformers (ViT) はコンピュータビジョンの分野で新たな研究の波をもたらした。
本稿では,航空画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
本稿では,新たな重み付き損失関数がCNNモデルの性能をViTを用いたトランスファー学習と比較して著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-11-14T00:18:04Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Human Action Recognition in Still Images Using ConViT [0.11510009152620665]
本稿では、視覚変換器(ViT)を用いた畳み込み層のように機能する新しいモジュールを提案する。
提案手法は,単純なCNNと比較して,画像の意味的な部分を抽出し,誤解を招く部分を抑えることができる。
論文 参考訳(メタデータ) (2023-07-18T06:15:23Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。