論文の概要: A Survey on Deep Learning-based Spatio-temporal Action Detection
- arxiv url: http://arxiv.org/abs/2308.01618v1
- Date: Thu, 3 Aug 2023 08:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 14:49:12.336141
- Title: A Survey on Deep Learning-based Spatio-temporal Action Detection
- Title(参考訳): 深層学習に基づく時空間行動検出に関する調査
- Authors: Peng Wang, Fanwei Zeng, Yuntao Qian
- Abstract要約: STADは、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
それは、爆発的に出現する現実世界の応用のために、コンピュータビジョンにおける特に活発な研究領域となっている。
本稿では,STADの最先端の深層学習手法について概観する。
- 参考スコア(独自算出の注目度): 8.456482280676884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal action detection (STAD) aims to classify the actions present
in a video and localize them in space and time. It has become a particularly
active area of research in computer vision because of its explosively emerging
real-world applications, such as autonomous driving, visual surveillance,
entertainment, etc. Many efforts have been devoted in recent years to building
a robust and effective framework for STAD. This paper provides a comprehensive
review of the state-of-the-art deep learning-based methods for STAD. Firstly, a
taxonomy is developed to organize these methods. Next, the linking algorithms,
which aim to associate the frame- or clip-level detection results together to
form action tubes, are reviewed. Then, the commonly used benchmark datasets and
evaluation metrics are introduced, and the performance of state-of-the-art
models is compared. At last, this paper is concluded, and a set of potential
research directions of STAD are discussed.
- Abstract(参考訳): Spatio-temporal Action Detection (STAD) は、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。
自動運転、視覚監視、エンターテイメントなど、爆発的に出現する現実世界の応用のために、コンピュータービジョンにおける特に活発な研究領域となっている。
近年、STADのための堅牢で効果的なフレームワークの構築に多くの努力が注がれている。
本稿では,STADの最先端の深層学習手法について概観する。
まず,これらの手法を整理するために分類法が開発されている。
次に、フレームレベルまたはクリップレベルの検出結果を結合してアクションチューブを形成するためのリンクアルゴリズムをレビューする。
次に、一般的に使用されるベンチマークデータセットと評価メトリクスを導入し、最先端モデルの性能を比較する。
最後に,本論文をまとめ,STADの潜在的な研究方向性について述べる。
関連論文リスト
- MeanAP-Guided Reinforced Active Learning for Object Detection [34.19741444116433]
本稿では,オブジェクト検出のためのMeanAP誘導強化能動学習について紹介する。
LSTMアーキテクチャに基づいて構築されたエージェントは、その後のトレーニングインスタンスを効率的に探索し、選択する。
我々は、一般的なベンチマーク、PASCAL VOC、MS COCOにおけるMAGRALの有効性を評価した。
論文 参考訳(メタデータ) (2023-10-12T14:59:22Z) - Temporal Action Segmentation: An Analysis of Modern Techniques [43.725939095985915]
ビデオにおける時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ分長ビデオにおいて、ビデオフレームを密に識別することを目的としている。
近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。
この調査は、最も重要なコントリビューションとトレンドを分析し、要約します。
論文 参考訳(メタデータ) (2022-10-19T07:40:47Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Recent Few-Shot Object Detection Algorithms: A Survey with Performance
Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。
FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。
本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文 参考訳(メタデータ) (2022-03-27T04:11:28Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Exploring Temporal Context and Human Movement Dynamics for Online Action
Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。
提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文 参考訳(メタデータ) (2021-06-26T08:34:19Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Joint Geographical and Temporal Modeling based on Matrix Factorization
for Point-of-Interest Recommendation [6.346772579930929]
POI(Point-of-Interest)レコメンデーションは,POIを推奨するユーザの好みやモビリティパターンを学習する重要なタスクとなっている。
従来の研究では、POI勧告を改善するためには、地理的影響や時間的影響などの文脈情報を取り入れることが必要であることが示されている。
論文 参考訳(メタデータ) (2020-01-24T12:25:37Z) - A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。
本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。
本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文 参考訳(メタデータ) (2020-01-21T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。