論文の概要: AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning
- arxiv url: http://arxiv.org/abs/2303.01589v1
- Date: Thu, 2 Mar 2023 21:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:57:29.183443
- Title: AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal
Reasoning
- Title(参考訳): AZTR:オートズームとテンポラル推論による空中ビデオ行動認識
- Authors: Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M.
Nogar, Aniket Bera, Dinesh Manocha
- Abstract要約: 本稿では,空中映像の行動認識のための新しい手法を提案する。
提案手法は,UAVを用いて撮影したビデオに対して設計されており,エッジやモバイルデバイス上でも動作可能である。
我々は、カスタマイズされたオートズームを使用して、人間のターゲットを自動的に識別し、適切にスケールする学習ベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 63.628195002143734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach for aerial video action recognition. Our method
is designed for videos captured using UAVs and can run on edge or mobile
devices. We present a learning-based approach that uses customized auto zoom to
automatically identify the human target and scale it appropriately. This makes
it easier to extract the key features and reduces the computational overhead.
We also present an efficient temporal reasoning algorithm to capture the action
information along the spatial and temporal domains within a controllable
computational cost. Our approach has been implemented and evaluated both on the
desktop with high-end GPUs and on the low power Robotics RB5 Platform for
robots and drones. In practice, we achieve 6.1-7.4% improvement over SOTA in
Top-1 accuracy on the RoCoG-v2 dataset, 8.3-10.4% improvement on the UAV-Human
dataset and 3.2% improvement on the Drone Action dataset.
- Abstract(参考訳): 本稿では,空中映像の行動認識のための新しい手法を提案する。
本手法は,uavで撮影したビデオに対して,エッジやモバイルデバイス上で動作させる。
本稿では,自動ズームをカスタマイズして目標を自動識別し,適切にスケールする学習ベースの手法を提案する。
これにより、重要な機能を抽出し、計算オーバーヘッドを減らすことができる。
また,制御可能な計算コスト内で,時間領域および時間領域に沿って行動情報をキャプチャする効率的な時間推論アルゴリズムを提案する。
我々のアプローチは、ハイエンドgpuを搭載したデスクトップと、ロボットやドローンのための低電力ロボティクスrb5プラットフォームの両方で実装され、評価されています。
実際には、RoCoG-v2データセットでSOTAよりも6.1-7.4%、UAV-Humanデータセットで8.3-10.4%、Drone Actionデータセットで3.2%改善している。
関連論文リスト
- VECTOR: Velocity-Enhanced GRU Neural Network for Real-Time 3D UAV Trajectory Prediction [2.1825723033513165]
シーケンスベースニューラルネットワークにおけるGRU(Gated Recurrent Units)を用いた新しいトラジェクトリ予測手法を提案する。
我々は、合成と実世界のUAV軌跡データの両方を使用し、幅広い飛行パターン、速度、機敏性を捉えています。
GRUベースのモデルは、平均二乗誤差(MSE)を2×10-8に抑えながら、最先端のRNNアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-24T07:16:42Z) - SOAR: Self-supervision Optimized UAV Action Recognition with Efficient Object-Aware Pretraining [65.9024395309316]
無人航空機(UAV)が捉えた航空映像の自己監督型事前学習アルゴリズムについて紹介する。
我々は,UAVビデオの事前学習効率と下流行動認識性能を向上させるために,事前学習プロセスを通じて人体知識を取り入れた。
論文 参考訳(メタデータ) (2024-09-26T21:15:22Z) - Streamlining Forest Wildfire Surveillance: AI-Enhanced UAVs Utilizing the FLAME Aerial Video Dataset for Lightweight and Efficient Monitoring [4.303063757163241]
本研究では,災害対応シナリオにおけるリアルタイムデータ処理の必要性を認識し,航空映像理解のための軽量かつ効率的なアプローチを提案する。
提案手法は、ポリシーネットワークを介してビデオ内の冗長部分を識別し、フレーム圧縮技術を用いて余分な情報を除去する。
ベースラインと比較して,提案手法は計算コストを13倍以上削減し,精度を3$%向上させる。
論文 参考訳(メタデータ) (2024-08-31T17:26:53Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - MITFAS: Mutual Information based Temporal Feature Alignment and Sampling
for Aerial Video Action Recognition [59.905048445296906]
UAVビデオにおける行動認識のための新しいアプローチを提案する。
我々は、時間領域における人間の行動や動きに対応する領域を計算・調整するために、相互情報の概念を用いる。
実際には、最先端の手法よりもTop-1の精度が18.9%向上している。
論文 参考訳(メタデータ) (2023-03-05T04:05:17Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。