Fugu-MT 論文翻訳(概要): A Survey on Deep Learning-based Spatio-temporal Action Detection

論文の概要: A Survey on Deep Learning-based Spatio-temporal Action Detection

arxiv url: http://arxiv.org/abs/2308.01618v1
Date: Thu, 3 Aug 2023 08:48:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 14:49:12.336141
Title: A Survey on Deep Learning-based Spatio-temporal Action Detection
Title（参考訳）: 深層学習に基づく時空間行動検出に関する調査
Authors: Peng Wang, Fanwei Zeng, Yuntao Qian
Abstract要約: STADは、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。それは、爆発的に出現する現実世界の応用のために、コンピュータビジョンにおける特に活発な研究領域となっている。本稿では,STADの最先端の深層学習手法について概観する。
参考スコア（独自算出の注目度）: 8.456482280676884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatio-temporal action detection (STAD) aims to classify the actions present in a video and localize them in space and time. It has become a particularly active area of research in computer vision because of its explosively emerging real-world applications, such as autonomous driving, visual surveillance, entertainment, etc. Many efforts have been devoted in recent years to building a robust and effective framework for STAD. This paper provides a comprehensive review of the state-of-the-art deep learning-based methods for STAD. Firstly, a taxonomy is developed to organize these methods. Next, the linking algorithms, which aim to associate the frame- or clip-level detection results together to form action tubes, are reviewed. Then, the commonly used benchmark datasets and evaluation metrics are introduced, and the performance of state-of-the-art models is compared. At last, this paper is concluded, and a set of potential research directions of STAD are discussed.
Abstract（参考訳）: Spatio-temporal Action Detection (STAD) は、ビデオに存在するアクションを分類し、空間と時間でローカライズすることを目的としている。自動運転、視覚監視、エンターテイメントなど、爆発的に出現する現実世界の応用のために、コンピュータービジョンにおける特に活発な研究領域となっている。近年、STADのための堅牢で効果的なフレームワークの構築に多くの努力が注がれている。本稿では,STADの最先端の深層学習手法について概観する。まず,これらの手法を整理するために分類法が開発されている。次に、フレームレベルまたはクリップレベルの検出結果を結合してアクションチューブを形成するためのリンクアルゴリズムをレビューする。次に、一般的に使用されるベンチマークデータセットと評価メトリクスを導入し、最先端モデルの性能を比較する。最後に,本論文をまとめ,STADの潜在的な研究方向性について述べる。

関連論文リスト

Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文参考訳（メタデータ） (2024-09-09T07:31:16Z)
Probabilistic Vision-Language Representation for Weakly Supervised Temporal Action Localization [3.996503381756227]
WTAL(Weakly supervised temporal action Localization)は、ビデオレベルのアノテーションのみを使用して、未トリミングビデオ中のアクションインスタンスを検出することを目的としている。本稿では,人間の行動知識と意味知識を確率論的埋め込み空間に整合させる新しい枠組みを提案する。本手法は,従来の最先端手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2024-08-12T07:09:12Z)
Understanding active learning of molecular docking and its applications [0.6554326244334868]
本研究では,2次元構造のみを用いて,能動的学習手法がドッキングスコアを効果的に予測する方法を検討する。以上の結果から,サロゲートモデルではドッキング量の高い化合物に代表される構造パターンを記憶する傾向が示唆された。我々の総合的な分析は、仮想スクリーニングキャンペーンにおけるアクティブラーニング手法の信頼性と潜在的な適用可能性を示している。
論文参考訳（メタデータ） (2024-06-14T05:43:42Z)
Temporal Action Segmentation: An Analysis of Modern Techniques [43.725939095985915]
ビデオにおける時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ分長ビデオにおいて、ビデオフレームを密に識別することを目的としている。近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。この調査は、最も重要なコントリビューションとトレンドを分析し、要約します。
論文参考訳（メタデータ） (2022-10-19T07:40:47Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
Recent Few-Shot Object Detection Algorithms: A Survey with Performance Comparison [54.357707168883024]
Few-Shot Object Detection (FSOD)は、人間の学習能力を模倣する。 FSODは、学習した汎用オブジェクトの知識を共通のヘビーテールから新しいロングテールオブジェクトクラスにインテリジェントに転送する。本稿では,問題定義,共通データセット,評価プロトコルなどを含むFSODの概要を紹介する。
論文参考訳（メタデータ） (2022-03-27T04:11:28Z)
Deep Learning Schema-based Event Extraction: Literature Review and Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文参考訳（メタデータ） (2021-07-05T16:32:45Z)
Exploring Temporal Context and Human Movement Dynamics for Online Action Detection in Videos [32.88517041655816]
時間的文脈と人間の動きのダイナミクスは、オンライン行動検出に効果的に利用することができる。提案手法は,様々な最先端アーキテクチャを用いて,抽出した特徴を適切に組み合わせて動作検出を改善する。
論文参考訳（メタデータ） (2021-06-26T08:34:19Z)
Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文参考訳（メタデータ） (2021-04-23T10:08:15Z)
Joint Geographical and Temporal Modeling based on Matrix Factorization for Point-of-Interest Recommendation [6.346772579930929]
POI(Point-of-Interest)レコメンデーションは,POIを推奨するユーザの好みやモビリティパターンを学習する重要なタスクとなっている。従来の研究では、POI勧告を改善するためには、地理的影響や時間的影響などの文脈情報を取り入れることが必要であることが示されている。
論文参考訳（メタデータ） (2020-01-24T12:25:37Z)
A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文参考訳（メタデータ） (2020-01-21T13:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。