論文の概要: SMART Frame Selection for Action Recognition
- arxiv url: http://arxiv.org/abs/2012.10671v1
- Date: Sat, 19 Dec 2020 12:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 15:21:52.446381
- Title: SMART Frame Selection for Action Recognition
- Title(参考訳): 行動認識のためのSMARTフレーム選択
- Authors: Shreyank N Gowda, Marcus Rohrbach, Laura Sevilla-Lara
- Abstract要約: 良いフレームを選択することは、トリミングされたビデオ領域でもアクション認識のパフォーマンスに役立ちます。
本稿では,フレームの選択を一度に行うのではなく,共同で検討する手法を提案する。
- 参考スコア(独自算出の注目度): 43.796505626453836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action recognition is computationally expensive. In this paper, we address
the problem of frame selection to improve the accuracy of action recognition.
In particular, we show that selecting good frames helps in action recognition
performance even in the trimmed videos domain. Recent work has successfully
leveraged frame selection for long, untrimmed videos, where much of the content
is not relevant, and easy to discard. In this work, however, we focus on the
more standard short, trimmed action recognition problem. We argue that good
frame selection can not only reduce the computational cost of action
recognition but also increase the accuracy by getting rid of frames that are
hard to classify. In contrast to previous work, we propose a method that
instead of selecting frames by considering one at a time, considers them
jointly. This results in a more efficient selection, where good frames are more
effectively distributed over the video, like snapshots that tell a story. We
call the proposed frame selection SMART and we test it in combination with
different backbone architectures and on multiple benchmarks (Kinetics,
Something-something, UCF101). We show that the SMART frame selection
consistently improves the accuracy compared to other frame selection strategies
while reducing the computational cost by a factor of 4 to 10 times.
Additionally, we show that when the primary goal is recognition performance,
our selection strategy can improve over recent state-of-the-art models and
frame selection strategies on various benchmarks (UCF101, HMDB51, FCVID, and
ActivityNet).
- Abstract(参考訳): 動作認識は計算コストが高い。
本稿では,アクション認識の精度を向上させるために,フレーム選択の問題に対処する。
特に,優れたフレームの選択は,トリミングされたビデオ領域においても行動認識性能に寄与することを示す。
最近の研究は、多くのコンテンツが関係なく、廃棄が容易な長いビデオに対して、フレーム選択の活用に成功している。
しかし、本研究では、より標準的でトリミングされた行動認識問題に焦点を当てる。
優れたフレーム選択は、行動認識の計算コストを削減できるだけでなく、分類が難しいフレームを除去することで精度を向上させることができると論じる。
従来の研究とは対照的に,フレームの選択を一度に考えるのではなく,共同で考える手法を提案する。
これにより、ストーリーを語るスナップショットなど、優れたフレームがビデオ上でより効果的に分散する、より効率的な選択が可能になる。
提案したフレーム選択SMARTを,異なるバックボーンアーキテクチャと複数のベンチマーク(Kinetics, Something-something, UCF101)で組み合わせてテストする。
SMARTフレーム選択は,計算コストを4倍から10倍に削減しつつ,他のフレーム選択方法と比較して常に精度を向上することを示す。
さらに,認識性能を第一の目標とする場合には,近年の最先端モデルや各種ベンチマーク(UCF101, HMDB51, FCVID, ActivityNet)のフレーム選択戦略よりも優れた選択戦略を実現できることを示す。
関連論文リスト
- An Empirical Study of Frame Selection for Text-to-Video Retrieval [62.28080029331507]
テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。
既存の方法は通常、TVRのビデオコンテンツを表すためにビデオ内のフレームのサブセットを選択する。
本稿では,TVRにおけるフレーム選択の実証的研究を行う。
論文 参考訳(メタデータ) (2023-11-01T05:03:48Z) - Search-Map-Search: A Frame Selection Paradigm for Action Recognition [21.395733318164393]
フレーム選択は、最も情報的で代表的なフレームを抽出して、モデルがビデオコンテンツをよりよく理解できるようにする。
既存のフレーム選択方法は、フレーム単位の重要度予測に基づいて、個別にフレームをサンプリングするか、あるいは、強化学習エージェントを用いて、代表フレームを逐次検索する。
本稿では,検索と教師付き学習の利点を組み合わせた検索-マップ-検索学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-20T13:49:53Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - Towards Frame Rate Agnostic Multi-Object Tracking [76.82407173177138]
本稿では,FraMOT 問題に初めて取り組むために,FAPS を用いたフレームレート非依存MOT フレームワークを提案する。
具体的には,フレームレート情報を推論し,符号化するフレームレートアグノスティックアソシエーションモジュール(FAAM)を提案する。
FAPSは、パターンマッチングと融合を追跡することによって、トレーニングにおけるすべての後処理ステップを反映する。
論文 参考訳(メタデータ) (2022-09-23T04:25:19Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z) - Sparse Black-box Video Attack with Reinforcement Learning [14.624074868199287]
ブラックボックスビデオ攻撃を強化学習フレームワークに定式化する。
RLの環境を認識モデルとし、RLのエージェントがフレーム選択の役割を果たす。
我々は2つの主流ビデオ認識モデルを用いて一連の実験を行う。
論文 参考訳(メタデータ) (2020-01-11T14:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。