論文の概要: Deep Patch Visual Odometry
- arxiv url: http://arxiv.org/abs/2208.04726v2
- Date: Tue, 23 May 2023 17:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 01:41:57.022628
- Title: Deep Patch Visual Odometry
- Title(参考訳): Deep Patch Visual Odometry
- Authors: Zachary Teed, Lahav Lipson and Jia Deng
- Abstract要約: ディープパッチ・ビジュアル・オドメトリー(DPVO)はモノクル・ビジュアル・オドメトリー(VO)のための新しいディープラーニングシステムである
DPVOは、時間にわたってイメージパッチを追跡するように設計された、新しいリカレントネットワークアーキテクチャを使用している。
標準ベンチマークでは、DPVOは、学習に基づく最先端のVOシステムを含む、これまでのすべての作業より優れています。
- 参考スコア(独自算出の注目度): 66.8086971254714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Deep Patch Visual Odometry (DPVO), a new deep learning system for
monocular Visual Odometry (VO). DPVO uses a novel recurrent network
architecture designed for tracking image patches across time. Recent approaches
to VO have significantly improved the state-of-the-art accuracy by using deep
networks to predict dense flow between video frames. However, using dense flow
incurs a large computational cost, making these previous methods impractical
for many use cases. Despite this, it has been assumed that dense flow is
important as it provides additional redundancy against incorrect matches. DPVO
disproves this assumption, showing that it is possible to get the best accuracy
and efficiency by exploiting the advantages of sparse patch-based matching over
dense flow. DPVO introduces a novel recurrent update operator for patch based
correspondence coupled with differentiable bundle adjustment. On Standard
benchmarks, DPVO outperforms all prior work, including the learning-based
state-of-the-art VO-system (DROID) using a third of the memory while running 3x
faster on average. Code is available at https://github.com/princeton-vl/DPVO
- Abstract(参考訳): 本稿では,モノクラービジュアルオドメトリー(VO)のための新しいディープラーニングシステムであるDeep Patch Visual Odometry (DPVO)を提案する。
DPVOは、時間にわたってイメージパッチを追跡するように設計された、新しいリカレントネットワークアーキテクチャを使用している。
VOに対する最近のアプローチは、ディープネットワークを用いてビデオフレーム間の密流を予測することにより、最先端の精度を大幅に向上させた。
しかし、高密度流れを用いると計算コストが大きくなり、多くのユースケースではこれらの手法は実用的ではない。
それにもかかわらず、不正確な一致に対してさらなる冗長性をもたらすため、密度流が重要であると推測されている。
DPVOはこの仮定を否定し、密流に対するスパースパッチベースのマッチングの利点を活用することにより、最高の精度と効率が得られることを示した。
DPVOは、パッチベースの対応と異なるバンドル調整を組み合わせた新しい更新演算子を導入している。
標準ベンチマークでは、DPVOは、学習ベースの最先端のVOシステム(DROID)を含む、すべての以前の作業で、メモリの3分の1を使用して、平均3倍高速で動作する。
コードはhttps://github.com/princeton-vl/DPVOで入手できる。
関連論文リスト
- Real-Time 3D Occupancy Prediction via Geometric-Semantic Disentanglement [8.592248643229675]
運転予測は自律運転(AD)において重要な役割を担っている
既存の手法はしばしば高い計算コストを発生させるが、これはADのリアルタイム要求と矛盾する。
ハイブリッドBEV-Voxel表現を用いた幾何学的意味的デュアルブランチネットワーク(GSDBN)を提案する。
論文 参考訳(メタデータ) (2024-07-18T04:46:13Z) - PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference [11.112356346406365]
PaPrは、軽量なConvNetを使用して、最小限の精度で冗長なパッチを実質的に刈り取る方法である。
FLOPカウントの低減に類似した、最先端のパッチリダクション法よりもはるかに高い精度を実現している。
論文 参考訳(メタデータ) (2024-03-24T05:50:00Z) - a novel attention-based network for fast salient object detection [14.246237737452105]
現在の有向物体検出ネットワークにおいて、最も一般的な方法はU字型構造を用いることである。
3つのコントリビューションを持つ新しい深層畳み込みネットワークアーキテクチャを提案する。
提案手法は, 精度を損なうことなく, 原サイズの1/3まで圧縮できることを示した。
論文 参考訳(メタデータ) (2021-12-20T12:30:20Z) - Design and Scaffolded Training of an Efficient DNN Operator for Computer
Vision on the Edge [3.3767251810292955]
FuSeConvは深度的に分離可能な畳み込みの代替となる。
FuSeConvは、その空間と深さの次元に沿って畳み込みを完全に分解する。
Neural Operator Scaffoldingは、深度的に分離可能な畳み込みからの知識を蒸留することでFuSeConvのトレーニングを行う。
論文 参考訳(メタデータ) (2021-08-25T19:22:25Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - CodeVIO: Visual-Inertial Odometry with Learned Optimizable Dense Depth [83.77839773394106]
本稿では,軽量で密結合の深い深度ネットワークと視覚慣性オドメトリーシステムを提案する。
我々は、初期深度予測の精度を高めるために、以前にVIOから切り離されたスパース特徴を持つネットワークを提供する。
本稿では,ネットワークとコードヤコビアンでのみGPUアクセラレーションを活用しながら,シングルスレッド実行でリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2020-12-18T09:42:54Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z) - Deep Isometric Learning for Visual Recognition [67.94199891354157]
我々は、標準的な画像認識ベンチマークで驚くほど優れたパフォーマンスを達成するために、深いバニラConvNetをトレーニングできることを示します。
私たちのコードはhttps://github.com/HaozhiQi/ISONet.comで公開されています。
論文 参考訳(メタデータ) (2020-06-30T17:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。