論文の概要: Zeus: Efficiently Localizing Actions in Videos using Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2104.06142v2
- Date: Mon, 19 Apr 2021 03:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 19:41:21.024562
- Title: Zeus: Efficiently Localizing Actions in Videos using Reinforcement
Learning
- Title(参考訳): Zeus: 強化学習を用いたビデオ中のアクションの効率よいローカライズ
- Authors: Pramod Chunduri, Jaeho Bang, Yao Lu, Joy Arulraj
- Abstract要約: 本稿では,アクションクエリに応答するビデオ分析システムZeusを紹介する。
Zeusは、入力されたビデオセグメントをアクション分類ネットワークに適応的に変更することを学ぶエージェントを訓練する。
Zeusは、精度認識報酬関数に基づいてエージェントを訓練するクエリを使用して、ユーザー指定のターゲット精度でクエリに答えることができます。
- 参考スコア(独自算出の注目度): 8.00133208459188
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detection and localization of actions in videos is an important problem in
practice. A traffic analyst might be interested in studying the patterns in
which vehicles move at a given intersection. State-of-the-art video analytics
systems are unable to efficiently and effectively answer such action queries.
The reasons are threefold. First, action detection and localization tasks
require computationally expensive deep neural networks. Second, actions are
often rare events. Third, actions are spread across a sequence of frames. It is
important to take the entire sequence of frames into context for effectively
answering the query. It is critical to quickly skim through the irrelevant
parts of the video to answer the action query efficiently.
In this paper, we present Zeus, a video analytics system tailored for
answering action queries. We propose a novel technique for efficiently
answering these queries using a deep reinforcement learning agent. Zeus trains
an agent that learns to adaptively modify the input video segments to an action
classification network. The agent alters the input segments along three
dimensions -- sampling rate, segment length, and resolution. Besides
efficiency, Zeus is capable of answering the query at a user-specified target
accuracy using a query optimizer that trains the agent based on an
accuracy-aware reward function. Our evaluation of Zeus on a novel action
localization dataset shows that it outperforms the state-of-the-art frame- and
window-based techniques by up to 1.4x and 3x, respectively. Furthermore, unlike
the frame-based technique, it satisfies the user-specified target accuracy
across all the queries, at up to 2x higher accuracy, than frame-based methods.
- Abstract(参考訳): ビデオ中のアクションの検出とローカライズは、実際に重要な問題である。
交通アナリストは、車両が所定の交差点で移動するパターンを研究することに興味があるかもしれない。
最先端のビデオ分析システムは、そのようなアクションクエリを効率的かつ効果的に答えることができない。
理由は3つある。
まず、アクション検出とローカライゼーションタスクは計算に高価なディープニューラルネットワークを必要とする。
第2に、アクションはしばしばまれなイベントです。
第3に、アクションは一連のフレームに分散されます。
クエリを効果的に応答するためには、フレームのシーケンス全体をコンテキストにまとめることが重要です。
ビデオの無関係な部分を素早くスキップして、アクションクエリに効率的に答えることが重要です。
本稿では,アクションクエリに応答するビデオ分析システムzeusについて述べる。
深層強化学習エージェントを用いて,これらの問合せを効率的に答える新しい手法を提案する。
Zeusは、入力ビデオセグメントをアクション分類ネットワークに適応的に変更することを学ぶエージェントを訓練する。
エージェントは、サンプリングレート、セグメント長、解像度の3次元に沿って入力セグメントを変更する。
効率性に加えて、zeusは、精度を意識した報酬関数に基づいてエージェントをトレーニングするクエリオプティマイザを使用して、ユーザ指定のターゲット精度でクエリに応答することができる。
新たなアクションローカライゼーションデータセットを用いたゼウスの評価では,最先端のフレームベースとウィンドウベースをそれぞれ1.4倍,3倍に向上した。
さらに、フレームベースの手法とは異なり、フレームベースの手法よりも最大2倍高い精度で、全クエリでユーザ指定のターゲット精度を満たす。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Temporal Query Networks for Fine-grained Video Understanding [88.9877174286279]
我々はこれをクエリ応答機構にキャストし、各クエリが特定の質問に対処し、独自の応答ラベルセットを持つ。
本手法は,細粒度動作分類のためのファインガイムおよびダイビング48ベンチマークを広範囲に評価し,rgb機能のみを用いて最先端の動作分類を克服した。
論文 参考訳(メタデータ) (2021-04-19T17:58:48Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos [0.0]
SSA2Dは、ビデオ中のアクター・アクション検出のための、シンプルだが効果的なエンド・ツー・エンドのディープ・ネットワークである。
SSA2Dは、単一ショットでピクセルレベルの共同アクターアクション検出を行う統一ネットワークである。
提案手法は,アクター・アクション・データセット(A2D)とビデオオブジェクト・リレーショナル・データセット(VidOR)で評価する。
論文 参考訳(メタデータ) (2020-11-22T03:53:40Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action
Spotting in Videos [0.0]
ActionSpotterは、Deep Reinforcement Learningを活用するスポッティングアルゴリズムで、ビデオブラウジング速度に適応しながら、アクションを効率的に検出する。
特に、THUMOS14の平均精度は、ビデオの23%をスキップしながら59.7%から65.6%に大幅に改善されている。
論文 参考訳(メタデータ) (2020-04-15T09:36:37Z) - Video Monitoring Queries [16.7214343633499]
ビデオストリーム上での対話型宣言型クエリ処理の問題について検討する。
特定のタイプのオブジェクトを含むクエリを高速化するために、近似フィルタのセットを導入します。
フィルタは、クエリ述語が真実であれば素早く評価でき、フレームのさらなる分析を進めることができる。
論文 参考訳(メタデータ) (2020-02-24T20:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。