論文の概要: CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers
- arxiv url: http://arxiv.org/abs/2101.01841v1
- Date: Wed, 6 Jan 2021 01:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:05:01.658520
- Title: CNN-based Visual Ego-Motion Estimation for Fast MAV Maneuvers
- Title(参考訳): 高速MAVマニピュレータのCNNに基づくビジュアルエゴ運動推定
- Authors: Yingfu Xu, Guido C. H. E. de Croon
- Abstract要約: 高速移動する単眼カメラからの画像間の相対的なポーズを予測する畳み込みニューラルネットワーク(CNN)について検討する。
本研究のネットワークは, モデルサイズが小さく, 推論速度も高い。
トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。
- 参考スコア(独自算出の注目度): 5.721124285238146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of visual ego-motion estimation for Micro Air Vehicles (MAVs),
fast maneuvers stay challenging mainly because of the big visual disparity and
motion blur. In the pursuit of higher robustness, we study convolutional neural
networks (CNNs) that predict the relative pose between subsequent images from a
fast-moving monocular camera facing a planar scene. Aided by the Inertial
Measurement Unit (IMU), we mainly focus on the translational motion. The
networks we study have similar small model sizes (around 1.35MB) and high
inference speeds (around 100Hz on a mobile GPU). Images for training and
testing have realistic motion blur. Departing from a network framework that
iteratively warps the first image to match the second with cascaded network
blocks, we study different network architectures and training strategies.
Simulated datasets and MAV flight datasets are used for evaluation. The
proposed setup shows better accuracy over existing networks and traditional
feature-point-based methods during fast maneuvers. Moreover, self-supervised
learning outperforms supervised learning. The code developed for this paper
will be open-source upon publication at https://github.com/tudelft/.
- Abstract(参考訳): マイクロエアビー(MAV)の視覚的エゴモーション推定の分野では、大きな視覚的相違と動きのぼかしが主な原因で、迅速な操縦が困難である。
高いロバスト性を求めるために,畳み込みニューラルネットワーク(cnns)を用いて,平面シーンに対向する高速移動単眼カメラから,後続画像間の相対的なポーズを予測する。
慣性計測ユニット (IMU) の支援を受けて, 主に翻訳運動に着目した。
本研究のネットワークは、類似の小型モデルサイズ(約1.35MB)と高速推論速度(モバイルGPUで約100Hz)を有する。
トレーニングやテスト用の画像は、リアルな動きのぼやけがあります。
第1の画像とカスケードされたネットワークブロックを反復的にマッチさせるネットワークフレームワークから離れ、異なるネットワークアーキテクチャとトレーニング戦略を研究する。
シミュレーションデータセットとMAV飛行データセットが評価に使用される。
提案手法は,高速操作時の既存ネットワークや従来の特徴点法よりも精度がよい。
さらに、自己教師型学習は教師型学習よりも優れる。
この論文のために開発されたコードはhttps://github.com/tudelft/.comで公開される。
関連論文リスト
- AM Flow: Adapters for Temporal Processing in Action Recognition [6.67921694218089]
textitAttention Map (AM) Flowは、入力されたビデオフレーム内の動きに関連するピクセルを識別する手法である。
AMフローは空間的および時間的処理の分離を可能にし、時間的処理の組合せよりも改善された結果を提供する。
我々は、Kineetics-400、Something v2、Toyota Smarthomeのデータセットについて実験を行い、最先端または同等の結果を示す。
論文 参考訳(メタデータ) (2024-11-04T13:07:22Z) - Convolutional Networks as Extremely Small Foundation Models: Visual Prompting and Theoretical Perspective [1.79487674052027]
本稿では,汎用的なディープネットワークを新たなタスクに適応させるプロンプトモジュールを設計する。
学習理論によって駆動され、同じトレーニングエラーの下でより良く一般化されるように、可能な限りシンプルなモジュールを誘導する。
実際、SDForestは非常に低コストで、CPUでもリアルタイムに実現できる。
論文 参考訳(メタデータ) (2024-09-03T12:34:23Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - CUAHN-VIO: Content-and-Uncertainty-Aware Homography Network for
Visual-Inertial Odometry [17.26743944652844]
学習ベースの視覚的エゴモーション推定は、現実の世界でアジャイルなモバイルロボットをナビゲートする準備が整っていないことを約束している。
我々は,下向きカメラを備えたマイクロエアロゾル車両(MAV)用に設計された,頑健で効率的な単眼視覚慣性眼振計(VIO)CUAHN-VIOを提案する。
CUAHN-VIOは、高速なパブリックデータセットで評価され、最先端(SOTA)VIOアプローチと競合する精度を示す。
論文 参考訳(メタデータ) (2022-08-30T00:11:55Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。