論文の概要: Spatial-Temporal Alignment Network for Action Recognition and Detection
- arxiv url: http://arxiv.org/abs/2012.02426v1
- Date: Fri, 4 Dec 2020 06:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 09:30:47.560814
- Title: Spatial-Temporal Alignment Network for Action Recognition and Detection
- Title(参考訳): 行動認識・検出のための空間時間アライメントネットワーク
- Authors: Junwei Liang, Liangliang Cao, Xuehan Xiong, Ting Yu, Alexander
Hauptmann
- Abstract要約: 本稿では,行動認識と検出を支援する視点不変の特徴表現を導入する方法について検討する。
本稿では,行動認識と行動検出のための幾何学的不変表現の学習を目的とした,空間時間アライメントネットワーク(STAN)を提案する。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
- 参考スコア(独自算出の注目度): 80.19235282200697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies how to introduce viewpoint-invariant feature
representations that can help action recognition and detection. Although we
have witnessed great progress of action recognition in the past decade, it
remains challenging yet interesting how to efficiently model the geometric
variations in large scale datasets. This paper proposes a novel
Spatial-Temporal Alignment Network (STAN) that aims to learn geometric
invariant representations for action recognition and action detection. The STAN
model is very light-weighted and generic, which could be plugged into existing
action recognition models like ResNet3D and the SlowFast with a very low extra
computational cost. We test our STAN model extensively on AVA, Kinetics-400,
AVA-Kinetics, Charades, and Charades-Ego datasets. The experimental results
show that the STAN model can consistently improve the state of the arts in both
action detection and action recognition tasks. We will release our data, models
and code.
- Abstract(参考訳): 本稿では,行動認識と検出を支援する視点不変特徴表現の導入方法について検討する。
過去10年間のアクション認識の大きな進歩を目の当たりにしてきたが、大規模データセットにおける幾何学的バリエーションを効率的にモデル化する方法は、いまだに興味深い。
本稿では,行動認識と行動検出のための幾何学的不変表現を学習する新しい空間-時間アライメントネットワーク(stan)を提案する。
stanモデルは軽量で汎用的で、resnet3dやslowfastのような既存のアクション認識モデルに非常に低い計算コストで接続できる。
我々は、AVA、Kinetics-400、AVA-Kinetics、Charades、Charades-EgoのデータセットでSTANモデルを広範囲にテストした。
実験の結果,STANモデルは動作検出タスクと動作認識タスクの両方において,一貫して芸術の状態を改善できることがわかった。
私たちはデータ、モデル、コードを公開します。
関連論文リスト
- SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。
トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。
本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文 参考訳(メタデータ) (2024-05-02T19:47:08Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Spatial-Temporal Alignment Network for Action Recognition [5.2170672727035345]
本稿では,既存の行動認識アーキテクチャにおける視点不変特徴表現の導入について述べる。
本稿では,行動認識のための幾何学的不変表現を明示的に学習する空間時間アライメントネットワーク(STAN)を提案する。
我々は、UCF101やHMDB51のような広く使われているデータセット上でSTANモデルをテストする。
論文 参考訳(メタデータ) (2023-08-19T03:31:57Z) - Texture-Based Input Feature Selection for Action Recognition [3.9596068699962323]
本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T23:56:31Z) - Baby Physical Safety Monitoring in Smart Home Using Action Recognition
System [0.0]
本研究では,移動学習手法をConv2D LSTM層と組み合わせて,Kineeticsデータセット上の事前学習したI3Dモデルから特徴を抽出するフレームワークを提案する。
スマートベビールームにおける赤ちゃんの活動を認識し,予測するために,LSTM畳み込みとI3D(ConvLSTM-I3D)を用いたベンチマークデータセットと自動モデルを開発した。
論文 参考訳(メタデータ) (2022-10-22T19:00:14Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - DeepActsNet: Spatial and Motion features from Face, Hands, and Body
Combined with Convolutional and Graph Networks for Improved Action
Recognition [10.690794159983199]
本稿では,ビデオシーケンスからのアクションをエンコードする新しいデータ表現である"Deep Action Stamps (DeepActs)"を提案する。
深層学習に基づくアンサンブルモデルである"DeepActsNet"も提案する。
論文 参考訳(メタデータ) (2020-09-21T12:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。