論文の概要: RGB Stream Is Enough for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2107.04362v1
- Date: Fri, 9 Jul 2021 11:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:59:47.898923
- Title: RGB Stream Is Enough for Temporal Action Detection
- Title(参考訳): RGBストリームで時間的アクション検出が可能に
- Authors: Chenhao Wang, Hongxiang Cai, Yuxin Zou, Yichao Xiong
- Abstract要約: 現在最先端の時間的動作検出器は、RGBフレームと光フローを含む2ストリーム入力に基づいている。
光フローは手作業で設計した表現であり、重い計算を必要とするだけでなく、2ストリームの手法がフローとともにエンドツーエンドで学習されないことも方法論的に不満足にしている。
我々は、光学フローが高精度な時間的動作検出において不要であり、光学フローを除去する際の性能劣化を回避するために、画像レベルのデータ拡張が鍵となるソリューションであると主張している。
- 参考スコア(独自算出の注目度): 3.2689702143620147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art temporal action detectors to date are based on two-stream
input including RGB frames and optical flow. Although combining RGB frames and
optical flow boosts performance significantly, optical flow is a hand-designed
representation which not only requires heavy computation, but also makes it
methodologically unsatisfactory that two-stream methods are often not learned
end-to-end jointly with the flow. In this paper, we argue that optical flow is
dispensable in high-accuracy temporal action detection and image level data
augmentation (ILDA) is the key solution to avoid performance degradation when
optical flow is removed. To evaluate the effectiveness of ILDA, we design a
simple yet efficient one-stage temporal action detector based on single RGB
stream named DaoTAD. Our results show that when trained with ILDA, DaoTAD has
comparable accuracy with all existing state-of-the-art two-stream detectors
while surpassing the inference speed of previous methods by a large margin and
the inference speed is astounding 6668 fps on GeForce GTX 1080 Ti. Code is
available at \url{https://github.com/Media-Smart/vedatad}.
- Abstract(参考訳): 現在最先端の時間的動作検出器は、RGBフレームと光フローを含む2ストリーム入力に基づいている。
rgbフレームとオプティカルフローの組み合わせは性能を著しく向上させるが、光学フローは、重い計算を必要とするだけでなく、2つのストリームメソッドがフローと共同でエンドツーエンドで学習されることが少なく、方法論上不満足なハンドデザインの表現である。
本稿では,光学フローの高精度な時間的動作検出には光学フローが不要であり,画像レベルのデータ拡張(ILDA)が重要な解であり,光学フローの除去時の性能劣化を回避する。
ILDAの有効性を評価するため,DaoTADという単一のRGBストリームをベースとした簡易かつ効率的な一段階動作検出器を設計した。
以上の結果から,DeoTADは既存の2ストリーム検出器と同等の精度を保ちつつ,従来の手法の推論速度を大きなマージンで上回り,GeForce GTX 1080 Tiでは6668fpsの速度を達成できた。
コードは \url{https://github.com/Media-Smart/vedatad} で入手できる。
関連論文リスト
- StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - Towards Anytime Optical Flow Estimation with Event Cameras [35.685866753715416]
イベントカメラは、マイクロ秒間の対数輝度の変化に対応することができる。
イベントカメラを介して収集された既存のデータセットは、限られたフレームレートの光学フローグラウンド真理を提供する。
本研究では,高フレームレートのイベント光流を生成するEVent-based Anytime Flow推定ネットワークであるEVA-Flowを提案する。
論文 参考訳(メタデータ) (2023-07-11T06:15:12Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - TadML: A fast temporal action detection with Mechanics-MLP [0.5148939336441986]
時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。
現在のモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。
本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案し,新しいニュートン力学-MLPアーキテクチャを構築した。
論文 参考訳(メタデータ) (2022-06-07T04:07:48Z) - hARMS: A Hardware Acceleration Architecture for Real-Time Event-Based
Optical Flow [0.0]
イベントベースの視覚センサは、視覚シーンの変化に基づいて、時間分解能の高い非同期イベントストリームを生成する。
イベントデータから光の流れを計算するための既存の解は、開口問題により運動の真の方向を捉えることができない。
本稿では,低消費電力な組込みプラットフォーム上での真の流れのリアルタイム計算を可能にするfARMSアルゴリズムのハードウェア実現について述べる。
論文 参考訳(メタデータ) (2021-12-13T16:27:17Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Unsupervised Motion Representation Enhanced Network for Action
Recognition [4.42249337449125]
連続するフレーム間の動きの表現は、ビデオの理解を大いに促進することが証明されている。
効果的な光フロー解決器であるTV-L1法は、抽出した光フローをキャッシュするために時間と費用がかかる。
UF-TSN(UF-TSN)は、軽量な非監視光フロー推定器を組み込んだ、エンドツーエンドのアクション認識手法です。
論文 参考訳(メタデータ) (2021-03-05T04:14:32Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。