論文の概要: PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition
- arxiv url: http://arxiv.org/abs/2304.06866v2
- Date: Wed, 15 Nov 2023 23:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:02:45.979731
- Title: PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition
- Title(参考訳): PMIサンプリング:航空行動認識のためのパッチ類似性誘導フレーム選択
- Authors: Ruiqi Xian, Xijun Wang, Divya Kothandaraman, Dinesh Manocha
- Abstract要約: 本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
- 参考スコア(独自算出の注目度): 52.78234467516168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new algorithm for selection of informative frames in video
action recognition. Our approach is designed for aerial videos captured using a
moving camera where human actors occupy a small spatial resolution of video
frames. Our algorithm utilizes the motion bias within aerial videos, which
enables the selection of motion-salient frames. We introduce the concept of
patch mutual information (PMI) score to quantify the motion bias between
adjacent frames, by measuring the similarity of patches. We use this score to
assess the amount of discriminative motion information contained in one frame
relative to another. We present an adaptive frame selection strategy using
shifted leaky ReLu and cumulative distribution function, which ensures that the
sampled frames comprehensively cover all the essential segments with high
motion salience. Our approach can be integrated with any action recognition
model to enhance its accuracy. In practice, our method achieves a relative
improvement of 2.2 - 13.8% in top-1 accuracy on UAV-Human, 6.8% on NEC Drone,
and 9.0% on Diving48 datasets.
- Abstract(参考訳): 本稿では,映像行動認識における情報フレーム選択のための新しいアルゴリズムを提案する。
我々のアプローチは、人間のアクターがビデオフレームの小さな空間分解能を占有する移動カメラを用いて撮影される空中ビデオのために設計されている。
提案アルゴリズムは, 映像中の動きバイアスを利用して, 動画フレームの選択を可能にする。
パッチの類似度を測定することにより、隣接フレーム間の動きバイアスを定量化するためのパッチ相互情報(PMI)スコアの概念を導入する。
このスコアを用いて、あるフレームに含まれる他のフレームに対する識別運動情報量を評価する。
そこで,本研究では,漏洩するreluと累積分布関数を用いた適応的なフレーム選択手法を提案する。
このアプローチは、あらゆるアクション認識モデルと統合でき、その精度を高めます。
実際には、UAV-Humanの2.2~13.8%、NEC Droneの6.8%、Diving48データセットの9.0%の相対的な改善を実現している。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Recurrent Video Deblurring with Blur-Invariant Motion Estimation and
Pixel Volumes [14.384467317051831]
本稿では,複数のビデオフレームから情報を効果的に集約することで,映像をブルーリングする2つの新しい手法を提案する。
まず、ぼやけたフレーム間の動き推定精度を向上させるために、ぼやけた不変な動き推定学習を提案する。
第二に、動き補正のために、推定した動きを歪ませてフレームを整列する代わりに、被写体がシャープな画素を含む画素体積を用いて、動き推定誤差を解消する。
論文 参考訳(メタデータ) (2021-08-23T07:36:49Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。