論文の概要: Spatial-Temporal Alignment Network for Action Recognition
- arxiv url: http://arxiv.org/abs/2308.09897v1
- Date: Sat, 19 Aug 2023 03:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:18:34.118631
- Title: Spatial-Temporal Alignment Network for Action Recognition
- Title(参考訳): 行動認識のための空間時間アライメントネットワーク
- Authors: Jinhui Ye and Junwei Liang
- Abstract要約: 本稿では,既存の行動認識アーキテクチャにおける視点不変特徴表現の導入について述べる。
本稿では,行動認識のための幾何学的不変表現を明示的に学習する空間時間アライメントネットワーク(STAN)を提案する。
我々は、UCF101やHMDB51のような広く使われているデータセット上でSTANモデルをテストする。
- 参考スコア(独自算出の注目度): 5.2170672727035345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies introducing viewpoint invariant feature representations in
existing action recognition architecture. Despite significant progress in
action recognition, efficiently handling geometric variations in large-scale
datasets remains challenging. To tackle this problem, we propose a novel
Spatial-Temporal Alignment Network (STAN), which explicitly learns geometric
invariant representations for action recognition. Notably, the STAN model is
light-weighted and generic, which could be plugged into existing action
recognition models (e.g., MViTv2) with a low extra computational cost. We test
our STAN model on widely-used datasets like UCF101 and HMDB51. The experimental
results show that the STAN model can consistently improve the state-of-the-art
models in action recognition tasks in trained-from-scratch settings.
- Abstract(参考訳): 本稿では,既存の行動認識アーキテクチャにおける視点不変特徴表現の導入について述べる。
行動認識の大幅な進歩にもかかわらず、大規模データセットの幾何学的変動を効率的に扱うことは依然として困難である。
そこで本研究では,行動認識のための幾何学的不変表現を明示的に学習する空間時間アライメントネットワーク(STAN)を提案する。
特にSTANモデルは軽量で汎用的であり、既存の行動認識モデル(例えばMViTv2)に追加の計算コストで接続することができる。
我々は、UCF101やHMDB51のような広く使われているデータセット上でSTANモデルをテストする。
実験の結果,STANモデルは,訓練されたスクラッチ環境下での動作認識タスクにおける最先端モデルを改善することができることがわかった。
関連論文リスト
- Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition [13.593511876719367]
教師なし表現学習のための新しい骨格ベース等等化生成モデル(IGM)を提案する。
ベンチマークデータセットであるNTU RGB+DとPKUMMDに関する実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-27T06:29:04Z) - Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。
本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文 参考訳(メタデータ) (2024-05-02T19:47:08Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Spatial-Temporal Alignment Network for Action Recognition and Detection [80.19235282200697]
本稿では,行動認識と検出を支援する視点不変の特徴表現を導入する方法について検討する。
本稿では,行動認識と行動検出のための幾何学的不変表現の学習を目的とした,空間時間アライメントネットワーク(STAN)を提案する。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
論文 参考訳(メタデータ) (2020-12-04T06:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。