論文の概要: Spatial-Temporal Alignment Network for Action Recognition
- arxiv url: http://arxiv.org/abs/2308.09897v1
- Date: Sat, 19 Aug 2023 03:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:18:34.118631
- Title: Spatial-Temporal Alignment Network for Action Recognition
- Title(参考訳): 行動認識のための空間時間アライメントネットワーク
- Authors: Jinhui Ye and Junwei Liang
- Abstract要約: 本稿では,既存の行動認識アーキテクチャにおける視点不変特徴表現の導入について述べる。
本稿では,行動認識のための幾何学的不変表現を明示的に学習する空間時間アライメントネットワーク(STAN)を提案する。
我々は、UCF101やHMDB51のような広く使われているデータセット上でSTANモデルをテストする。
- 参考スコア(独自算出の注目度): 5.2170672727035345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies introducing viewpoint invariant feature representations in
existing action recognition architecture. Despite significant progress in
action recognition, efficiently handling geometric variations in large-scale
datasets remains challenging. To tackle this problem, we propose a novel
Spatial-Temporal Alignment Network (STAN), which explicitly learns geometric
invariant representations for action recognition. Notably, the STAN model is
light-weighted and generic, which could be plugged into existing action
recognition models (e.g., MViTv2) with a low extra computational cost. We test
our STAN model on widely-used datasets like UCF101 and HMDB51. The experimental
results show that the STAN model can consistently improve the state-of-the-art
models in action recognition tasks in trained-from-scratch settings.
- Abstract(参考訳): 本稿では,既存の行動認識アーキテクチャにおける視点不変特徴表現の導入について述べる。
行動認識の大幅な進歩にもかかわらず、大規模データセットの幾何学的変動を効率的に扱うことは依然として困難である。
そこで本研究では,行動認識のための幾何学的不変表現を明示的に学習する空間時間アライメントネットワーク(STAN)を提案する。
特にSTANモデルは軽量で汎用的であり、既存の行動認識モデル(例えばMViTv2)に追加の計算コストで接続することができる。
我々は、UCF101やHMDB51のような広く使われているデータセット上でSTANモデルをテストする。
実験の結果,STANモデルは,訓練されたスクラッチ環境下での動作認識タスクにおける最先端モデルを改善することができることがわかった。
関連論文リスト
- Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for
Few-shot Action Recognition [65.27285089305845]
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter, D$2$ST-Adapter) は、数発のアクション認識のための新しいアダプタフレームワークである。
本手法は,時間的ダイナミクスが行動認識に不可欠である難易度シナリオに特に適している。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - Supervising Remote Sensing Change Detection Models with 3D Surface
Semantics [1.8782750537161614]
光RGBと地上レベル(AGL)マップペアを用いた共同学習のためのコントラスト表面画像事前学習(CSIP)を提案する。
次に、これらの事前訓練されたモデルをいくつかの建物セグメンテーションおよび変更検出データセット上で評価し、実際に、下流アプリケーションに関連する特徴を抽出することを示す。
論文 参考訳(メタデータ) (2022-02-26T23:35:43Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Spatial-Temporal Alignment Network for Action Recognition and Detection [80.19235282200697]
本稿では,行動認識と検出を支援する視点不変の特徴表現を導入する方法について検討する。
本稿では,行動認識と行動検出のための幾何学的不変表現の学習を目的とした,空間時間アライメントネットワーク(STAN)を提案する。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
論文 参考訳(メタデータ) (2020-12-04T06:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。