論文の概要: Finding Action Tubes with a Sparse-to-Dense Framework
- arxiv url: http://arxiv.org/abs/2008.13196v1
- Date: Sun, 30 Aug 2020 15:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:19:03.025055
- Title: Finding Action Tubes with a Sparse-to-Dense Framework
- Title(参考訳): Sparse-to-Dense フレームワークを用いたアクションチューブの探索
- Authors: Yuxi Li, Weiyao Lin, Tao Wang, John See, Rui Qian, Ning Xu, Limin
Wang, Shugong Xu
- Abstract要約: 本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
- 参考スコア(独自算出の注目度): 62.60742627484788
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The task of spatial-temporal action detection has attracted increasing
attention among researchers. Existing dominant methods solve this problem by
relying on short-term information and dense serial-wise detection on each
individual frames or clips. Despite their effectiveness, these methods showed
inadequate use of long-term information and are prone to inefficiency. In this
paper, we propose for the first time, an efficient framework that generates
action tube proposals from video streams with a single forward pass in a
sparse-to-dense manner. There are two key characteristics in this framework:
(1) Both long-term and short-term sampled information are explicitly utilized
in our spatiotemporal network, (2) A new dynamic feature sampling module (DTS)
is designed to effectively approximate the tube output while keeping the system
tractable. We evaluate the efficacy of our model on the UCF101-24, JHMDB-21 and
UCFSports benchmark datasets, achieving promising results that are competitive
to state-of-the-art methods. The proposed sparse-to-dense strategy rendered our
framework about 7.6 times more efficient than the nearest competitor.
- Abstract(参考訳): 時空間行動検出の課題は研究者の間で注目を集めている。
既存の支配的な手法では、各フレームやクリップの短期的な情報と密集した連続的な検出に頼ることでこの問題を解決している。
有効性にも拘わらず、これらの手法は長期的な情報の利用が不十分であり、非効率になりがちである。
本稿では,1つのフォワードパスを持つビデオストリームから,スパース・トゥ・デンスな方法でアクションチューブ提案を生成する,効率的なフレームワークを初めて提案する。
このフレームワークには2つの重要な特徴がある: 1) 長期サンプル情報と短期サンプル情報の両方を時空間ネットワークで明示的に利用し、(2) 新しい動的特徴サンプリングモジュール(DTS)は、システムをトラクタブルに保ちながらチューブ出力を効果的に近似するように設計されている。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 最先端手法と競合する有望な結果が得られた。
提案されたスパース・トゥ・デンス戦略により、我々のフレームワークは最も近い競合相手の約7.6倍効率が向上した。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Memory Group Sampling Based Online Action Recognition Using Kinetic
Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。
まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。
次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。
第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-11-01T16:43:08Z) - CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action
Localization [42.95186231216036]
効率的な動作位置決めのための粗い動作検出器(CFAD)を提案する。
CFADはまず、ビデオストリームから粗い管時間行動管を推定し、キータイムスタンプに基づいて位置を洗練する。
論文 参考訳(メタデータ) (2020-08-19T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。