論文の概要: DeepAVO: Efficient Pose Refining with Feature Distilling for Deep Visual
Odometry
- arxiv url: http://arxiv.org/abs/2105.09899v1
- Date: Thu, 20 May 2021 17:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:43:03.213688
- Title: DeepAVO: Efficient Pose Refining with Feature Distilling for Deep Visual
Odometry
- Title(参考訳): DeepAVO:Deep Visual Odometryのための機能拡張による効率的なポーズ精製
- Authors: Ran Zhu, Mingkun Yang, Wang Liu, Rujun Song, Bo Yan, Zhuoling Xiao
- Abstract要約: 本稿では, 深層学習(DL)の観点から, モノクラービジュアルオドメトリー(VO)について検討する。
本稿では、コナールニューラルネットワーク(CNN)を利用して、光フロー入力の異なる四分項に着目し、回転と変換を学習する新しい4分岐ネットワークを提案する。
屋外走行と屋内歩行のシナリオを含む様々なデータセットの実験により、提案されたDeepAVOは最先端のモノラル法よりも大きなマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 8.114855695727003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The technology for Visual Odometry (VO) that estimates the position and
orientation of the moving object through analyzing the image sequences captured
by on-board cameras, has been well investigated with the rising interest in
autonomous driving. This paper studies monocular VO from the perspective of
Deep Learning (DL). Unlike most current learning-based methods, our approach,
called DeepAVO, is established on the intuition that features contribute
discriminately to different motion patterns. Specifically, we present a novel
four-branch network to learn the rotation and translation by leveraging
Convolutional Neural Networks (CNNs) to focus on different quadrants of optical
flow input. To enhance the ability of feature selection, we further introduce
an effective channel-spatial attention mechanism to force each branch to
explicitly distill related information for specific Frame to Frame (F2F) motion
estimation. Experiments on various datasets involving outdoor driving and
indoor walking scenarios show that the proposed DeepAVO outperforms the
state-of-the-art monocular methods by a large margin, demonstrating competitive
performance to the stereo VO algorithm and verifying promising potential for
generalization.
- Abstract(参考訳): 視覚オドメトリ(vo, visual odometry, 視覚オドメトリ)技術は、車載カメラで撮影された画像シーケンスを分析し、移動物体の位置と方向を推定する技術であり、自動運転への関心が高まっている。
本稿では,Deep Learning(DL)の観点から,単分子VOについて考察する。
従来の学習手法とは異なり、私たちのアプローチであるDeepAVOは、特徴が異なる動きパターンに差別的に寄与する直感に基づいています。
具体的には,畳み込みニューラルネットワーク(cnns)を利用して,光フロー入力の4次領域に焦点を合わせることで,回転と変換を学習する新しい4分岐ネットワークを提案する。
さらに,特徴選択能力を高めるために,特定フレームからフレーム(f2f)の動き推定に関して,各ブランチに明示的に関連情報を抽出させる効果的なチャネル空間的注意機構を導入する。
屋外走行と屋内歩行のシナリオを含む様々なデータセットの実験により、提案されたDeepAVOは最先端のモノラル法を大きなマージンで上回り、ステレオVOアルゴリズムとの競合性能を示し、一般化の有望な可能性を検証している。
関連論文リスト
- LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。
LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。
これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文 参考訳(メタデータ) (2024-01-03T18:57:27Z) - Lightweight Monocular Depth Estimation with an Edge Guided Network [34.03711454383413]
本稿では,新しいエッジガイド深度推定ネットワーク(EGD-Net)を提案する。
特に、軽量なエンコーダデコーダアーキテクチャから始め、エッジガイダンスブランチを組み込む。
コンテクスト情報とエッジアテンション特徴を集約するために,トランスフォーマーをベースとした機能アグリゲーションモジュールを設計する。
論文 参考訳(メタデータ) (2022-09-29T14:45:47Z) - USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks [31.600708674008384]
UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-07-15T13:25:47Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - On Deep Learning Techniques to Boost Monocular Depth Estimation for
Autonomous Navigation [1.9007546108571112]
画像の深さを推定することはコンピュータビジョンの分野における根本的な逆問題である。
本稿では,新しい特徴抽出モデルと組み合わせ,軽量で高速なCNNアーキテクチャを提案する。
また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-13T18:37:38Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z) - End-to-end Learning for Inter-Vehicle Distance and Relative Velocity
Estimation in ADAS with a Monocular Camera [81.66569124029313]
本稿では,ディープニューラルネットワークのエンドツーエンドトレーニングに基づくカメラによる車間距離と相対速度推定手法を提案する。
提案手法の重要な特徴は,2つの時間的単眼フレームによって提供される複数の視覚的手がかりの統合である。
また,移動場における視線歪みの影響を緩和する車両中心サンプリング機構を提案する。
論文 参考訳(メタデータ) (2020-06-07T08:18:31Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。