論文の概要: AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning
- arxiv url: http://arxiv.org/abs/2303.01589v1
- Date: Thu, 2 Mar 2023 21:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:57:29.183443
- Title: AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning
- Title(参考訳): AZTR:オートズームとテンポラル推論による空中ビデオ行動認識
- Authors: Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M.
Nogar, Aniket Bera, Dinesh Manocha
- Abstract要約: 本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 63.628195002143734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for aerial video action recognition. Our method
is designed for videos captured using UAVs and can run on edge or mobile
devices. We present a learning-based approach that uses customized auto zoom to
automatically identify the human target and scale it appropriately. This makes
it easier to extract the key features and reduces the computational overhead.
We also present an efficient temporal reasoning algorithm to capture the action
information along the spatial and temporal domains within a controllable
computational cost. Our approach has been implemented and evaluated both on the
desktop with high-end GPUs and on the low power Robotics RB5 Platform for
robots and drones. In practice, we achieve 6.1-7.4% improvement over SOTA in
Top-1 accuracy on the RoCoG-v2 dataset, 8.3-10.4% improvement on the UAV-Human
dataset and 3.2% improvement on the Drone Action dataset.
- Abstract(参考訳): 本稿では,空中映像の行動認識のための新しい手法を提案する。
本手法は,uavで撮影したビデオに対して,エッジやモバイルデバイス上で動作させる。
本稿では,自動ズームをカスタマイズして目標を自動識別し,適切にスケールする学習ベースの手法を提案する。
これにより、重要な機能を抽出し、計算オーバーヘッドを減らすことができる。
また,制御可能な計算コスト内で,時間領域および時間領域に沿って行動情報をキャプチャする効率的な時間推論アルゴリズムを提案する。
我々のアプローチは、ハイエンドgpuを搭載したデスクトップと、ロボットやドローンのための低電力ロボティクスrb5プラットフォームの両方で実装され、評価されています。
実際には、RoCoG-v2データセットでSOTAよりも6.1-7.4%、UAV-Humanデータセットで8.3-10.4%、Drone Actionデータセットで3.2%改善している。
関連論文リスト
- MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - TAU: A Framework for Video-Based Traffic Analytics Leveraging Artificial
Intelligence and Unmanned Aerial Systems [2.748428882236308]
自動トラフィック分析と理解のためのAI統合ビデオ分析フレームワークTAU(Traffic Analysis from UAVs)を開発した。
トラヒックビデオ解析における従来の研究とは違って,ビデオ処理から高解像度UAV画像を用いた高度なトラヒック理解へ向けた自動物体検出・追跡パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-01T09:03:44Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Rethinking Drone-Based Search and Rescue with Aerial Person Detection [79.76669658740902]
航空ドローンの映像の視覚検査は、現在土地捜索救助(SAR)活動に不可欠な部分である。
本稿では,この空中人物検出(APD)タスクを自動化するための新しいディープラーニングアルゴリズムを提案する。
本稿では,Aerial Inspection RetinaNet (AIR) アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-11-17T21:48:31Z) - Learning in the Sky: An Efficient 3D Placement of UAVs [0.8399688944263842]
本稿では,地上のセルネットワークをダウンリンクで支援するUAVの3次元展開のための学習機構を提案する。
この問題は、満足度のあるUAV間での非協調ゲームとしてモデル化されている。
この問題を解決するために,不満足なUAVが学習アルゴリズムに基づいて位置情報を更新する,低複雑性アルゴリズムを用いる。
論文 参考訳(メタデータ) (2020-03-02T15:16:00Z) - MVP: Unified Motion and Visual Self-Supervised Learning for Large-Scale
Robotic Navigation [23.54696982881734]
本稿では,大規模かつ目標駆動型ナビゲーションタスクのための新しい動き認識手法であるMVPを提案する。
我々のMVPベースの手法は、より速く学習でき、極端な環境変化とGPSデータの両方に対してより正確で堅牢です。
我々は,Oxford Robotcar と Nordland Railway の2つの大規模実世界のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2020-03-02T05:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。