論文の概要: TadML: A fast temporal action detection with Mechanics-MLP
- arxiv url: http://arxiv.org/abs/2206.02997v1
- Date: Tue, 7 Jun 2022 04:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:00:45.592046
- Title: TadML: A fast temporal action detection with Mechanics-MLP
- Title(参考訳): TadML: Mechanics-MLPを用いた高速時間動作検出
- Authors: Bowen Deng and Dongchang Liu
- Abstract要約: 時間的行動検出(TAD)はビデオ理解において不可欠だが難しい課題である。
現在のほとんどのモデルでは、TADタスクにRGBとOpto-Flowストリームが採用されている。
本稿では,RGBストリームのみを用いたワンステージアンカーフリー時間的ローカライズ手法を提案する。
- 参考スコア(独自算出の注目度): 1.1878820609988694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection(TAD) is a crucial but challenging task in video
understanding.It is aimed at detecting both the type and start-end frame for
each action instance in a long, untrimmed video.Most current models adopt both
RGB and Optical-Flow streams for the TAD task. Thus, original RGB frames must
be converted manually into Optical-Flow frames with additional computation and
time cost, which is an obstacle to achieve real-time processing. At present,
many models adopt two-stage strategies, which would slow the inference speed
down and complicatedly tuning on proposals generating.By comparison, we propose
a one-stage anchor-free temporal localization method with RGB stream only, in
which a novel Newtonian \emph{Mechanics-MLP} architecture is established. It
has comparable accuracy with all existing state-of-the-art models, while
surpasses the inference speed of these methods by a large margin. The typical
inference speed in this paper is astounding 4.44 video per second on THUMOS14.
In applications, because there is no need to convert optical flow, the
inference speed will be faster.It also proves that \emph{MLP} has great
potential in downstream tasks such as TAD. The source code is available at
\url{https://github.com/BonedDeng/TadML}
- Abstract(参考訳): 時間的行動検出(TAD)はビデオ理解において不可欠だが困難な課題であり、長いビデオで各アクションインスタンスのタイプと終了フレームの両方を検知することを目的としており、ほとんどのモデルでは、TADタスクにRGBとOpto-Flowストリームを採用する。
したがって、オリジナルのRGBフレームは、計算量と時間コストを増し、手動で光フローフレームに変換する必要があり、リアルタイム処理の障害となる。
現在、多くのモデルが2段階の戦略を採用しており、これは推論の速度を遅くし、提案を複雑に調整する。比較により、rgbストリームのみを用いた1段階のアンカーフリーな時間的局所化手法を提案し、新しいニュートンの \emph{mechanics-mlp} アーキテクチャが確立されている。
既存の最先端モデルと同等の精度を持つ一方で、これらのメソッドの推論速度を大きなマージンで上回っている。
この論文の典型的な推論速度は、THUMOS14で毎秒4.44ビデオである。
アプリケーションでは、光学フローを変換する必要がないため、推論速度が速くなり、tadのような下流タスクにおいて \emph{mlp} が大きな可能性を秘めている。
ソースコードは \url{https://github.com/BonedDeng/TadML} で入手できる。
関連論文リスト
- MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。
本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。
われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-04-07T04:56:58Z) - ATCA: an Arc Trajectory Based Model with Curvature Attention for Video
Frame Interpolation [10.369068266836154]
2つの連続するフレームよりも先に動きを学習し,軽量なアーク軌道モデル(ATCA)を提案する。
実験により,本手法はより少ないパラメータと高速な推論速度を持つ多くのSOTA法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-01T13:42:08Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - RGB Stream Is Enough for Temporal Action Detection [3.2689702143620147]
現在最先端の時間的動作検出器は、RGBフレームと光フローを含む2ストリーム入力に基づいている。
光フローは手作業で設計した表現であり、重い計算を必要とするだけでなく、2ストリームの手法がフローとともにエンドツーエンドで学習されないことも方法論的に不満足にしている。
我々は、光学フローが高精度な時間的動作検出において不要であり、光学フローを除去する際の性能劣化を回避するために、画像レベルのデータ拡張が鍵となるソリューションであると主張している。
論文 参考訳(メタデータ) (2021-07-09T11:10:11Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - PAN: Towards Fast Action Recognition via Learning Persistence of
Appearance [60.75488333935592]
最先端のほとんどの手法は、動きの表現として密度の高い光の流れに大きく依存している。
本稿では,光学的フローに依存することで,高速な動作認識に光を当てる。
我々はPersistence of Outearance(PA)と呼ばれる新しい動きキューを設計する。
光学的流れとは対照的に,我々のPAは境界における運動情報の蒸留に重点を置いている。
論文 参考訳(メタデータ) (2020-08-08T07:09:54Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。