論文の概要: RADNet: A Deep Neural Network Model for Robust Perception in Moving
Autonomous Systems
- arxiv url: http://arxiv.org/abs/2205.00364v1
- Date: Sat, 30 Apr 2022 23:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:19:12.581616
- Title: RADNet: A Deep Neural Network Model for Robust Perception in Moving
Autonomous Systems
- Title(参考訳): RADNet: 移動自律システムにおけるロバスト知覚のためのディープニューラルネットワークモデル
- Authors: Burhan A. Mudassar, Sho Ko, Maojingjing Li, Priyabrata Saha, Saibal
Mukhopadhyay
- Abstract要約: 我々は,グローバルカメラの動きの度合いに基づいて,映像のランク付けを行う新しいランキング手法を開発した。
上位のカメラビデオでは、アクション検出の精度が低下している。
本稿では,カメラの動作効果に頑健な動作検出パイプラインを提案し,それを実証的に検証する。
- 参考スコア(独自算出の注目度): 8.706086688708014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive autonomous applications require robustness of the perception
engine to artifacts in unconstrained videos. In this paper, we examine the
effect of camera motion on the task of action detection. We develop a novel
ranking method to rank videos based on the degree of global camera motion. For
the high ranking camera videos we show that the accuracy of action detection is
decreased. We propose an action detection pipeline that is robust to the camera
motion effect and verify it empirically. Specifically, we do actor feature
alignment across frames and couple global scene features with local
actor-specific features. We do feature alignment using a novel formulation of
the Spatio-temporal Sampling Network (STSN) but with multi-scale offset
prediction and refinement using a pyramid structure. We also propose a novel
input dependent weighted averaging strategy for fusing local and global
features. We show the applicability of our network on our dataset of moving
camera videos with high camera motion (MOVE dataset) with a 4.1% increase in
frame mAP and 17% increase in video mAP.
- Abstract(参考訳): インタラクティブな自律アプリケーションは、制約のないビデオのアーティファクトに対する知覚エンジンの堅牢性を必要とする。
本稿では,カメラの動きが行動検出の課題に与える影響について検討する。
グローバルなカメラ動作の程度に基づいて,ビデオのランク付けを行う新しいランキング手法を開発した。
上位のカメラビデオでは、アクション検出の精度が低下している。
本稿では,カメラの動作効果に頑健な動作検出パイプラインを提案し,実験的に検証する。
具体的には、フレーム間でアクタ機能アライメントを行い、グローバルシーン機能をローカルアクタ特有の機能と組み合わせます。
時空間サンプリングネットワーク(STSN)の新規な定式化による特徴アライメントを行うが,ピラミッド構造を用いたマルチスケールオフセット予測と改善を行う。
また,局所的およびグローバル的特徴を融合するための新しい入力依存平均化戦略を提案する。
移動カメラビデオ(MOVEデータセット)のデータセットにネットワークの適用性を示し,フレームmAPが4.1%増加し,ビデオmAPが17%増加した。
関連論文リスト
- MOVIN: Real-time Motion Capture using a Single LiDAR [7.3228874258537875]
我々は,グローバルトラッキングを用いたリアルタイムモーションキャプチャのためのデータ駆動生成法MOVINを提案する。
本フレームワークは,パフォーマーの3次元グローバル情報と局所的な関節の詳細を正確に予測する。
実世界のシナリオでメソッドをデモするために,リアルタイムアプリケーションを実装した。
論文 参考訳(メタデータ) (2023-09-17T16:04:15Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - HVC-Net: Unifying Homography, Visibility, and Confidence Learning for
Planar Object Tracking [5.236567998857959]
我々は、ホモグラフィ、可視性、信頼性を共同で検討する統合畳み込みニューラルネットワーク(CNN)モデルを提案する。
提案手法は,パブリックPOTおよびTMTデータセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-09-19T11:11:56Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation [77.09542018140823]
本稿では、カメラ再配置問題に対処するため、グラフトランスフォーマーバックボーン、すなわちTransCamPを用いたニューラルネットワークアプローチを提案する。
TransCamPは、画像の特徴、カメラポーズ情報、フレーム間の相対的なカメラモーションを、エンコードされたグラフ属性に効果的に融合する。
論文 参考訳(メタデータ) (2021-05-28T19:08:43Z) - Deep Learning for Robust Motion Segmentation with Non-Static Cameras [0.0]
本論文では,MOSNET と呼ばれる非静的なカメラで撮影するモーションセグメンテーションのための新たな DCNN ベースのアプローチを提案する。
他のアプローチは空間的または時間的文脈に焦点を当てているが、提案手法は3d畳み込みをビデオフレームの時間的特徴を分解する重要な技術として用いる。
このネットワークは、シーン中に画像コンテンツが大幅に変化する静電カメラで撮影されたシーンでうまく機能します。
論文 参考訳(メタデータ) (2021-02-22T11:58:41Z) - 0-MMS: Zero-Shot Multi-Motion Segmentation With A Monocular Event Camera [13.39518293550118]
本稿では,ボトムアップ機能トラッキングとトップダウン動作補償を組み合わせたモノラルなマルチモーションセグメンテーション手法を提案する。
時間間隔内でのイベントを用いて、本手法はシーンを分割とマージによって複数の動作に分割する。
このアプローチは、EV-IMO、EED、MODデータセットから、挑戦的な現実シナリオと合成シナリオの両方で評価された。
論文 参考訳(メタデータ) (2020-06-11T02:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。