論文の概要: RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry
- arxiv url: http://arxiv.org/abs/2203.07162v1
- Date: Mon, 14 Mar 2022 15:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 21:08:34.847073
- Title: RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry
- Title(参考訳): RAUM-VO:回転調整無監督眼球運動計測
- Authors: Claudio Cimarelli, Hriday Bavle, Jose Luis Sanchez-Lopez, Holger Voos
- Abstract要約: 本稿では,フレーム間動き推定のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。
RAUM-VOは、KITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised learning for monocular camera motion and 3D scene understanding
has gained popularity over traditional methods, relying on epipolar geometry or
non-linear optimization. Notably, deep learning can overcome many issues of
monocular vision, such as perceptual aliasing, low-textured areas, scale-drift,
and degenerate motions. Also, concerning supervised learning, we can fully
leverage video streams data without the need for depth or motion labels.
However, in this work, we note that rotational motion can limit the accuracy of
the unsupervised pose networks more than the translational component.
Therefore, we present RAUM-VO, an approach based on a model-free epipolar
constraint for frame-to-frame motion estimation (F2F) to adjust the rotation
during training and online inference. To this end, we match 2D keypoints
between consecutive frames using pre-trained deep networks, Superpoint and
Superglue, while training a network for depth and pose estimation using an
unsupervised training protocol. Then, we adjust the predicted rotation with the
motion estimated by F2F using the 2D matches and initializing the solver with
the pose network prediction. Ultimately, RAUM-VO shows a considerable accuracy
improvement compared to other unsupervised pose networks on the KITTI dataset
while reducing the complexity of other hybrid or traditional approaches and
achieving comparable state-of-the-art results.
- Abstract(参考訳): 単眼カメラ動作と3次元シーン理解のための教師なし学習は、エピポーラ幾何や非線形最適化に依存する従来の手法で人気を集めている。
特に、深層学習は、知覚的エイリアス、低テクスチャ領域、スケールドリフト、退化運動など、単眼視の多くの問題を克服することができる。
また,教師付き学習に関しては,奥行きラベルやモーションラベルを必要とせずにビデオストリームデータを完全に活用できる。
しかし,本研究では,回転運動は,翻訳成分よりも教師なしポーズネットワークの精度を制限できる点に注目する。
そこで本研究では,フレーム・ツー・フレーム動作推定(F2F)のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。
そこで本研究では,事前学習した深度ネットワークであるSuperpointとSuperglueを用いて,教師なしのトレーニングプロトコルを用いて,ネットワークの深度とポーズ推定をトレーニングしながら,連続したフレーム間の2Dキーポイントをマッチングする。
次に、2Dマッチングを用いてF2Fが推定した動きと予測回転を調整し、ポーズネットワーク予測と初期化する。
究極的には、RAUM-VOはKITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上し、他のハイブリッドや従来のアプローチの複雑さを低減し、最先端の結果に匹敵する結果が得られる。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - Learning to Estimate Single-View Volumetric Flow Motions without 3D
Supervision [0.0]
トレーニングに3次元地上真理を必要とせずに,対応するネットワークをトレーニングすることが可能であることを示す。
地上の真実データがない場合には、合成再構成に頼るのではなく、実世界の観測装置でモデルを訓練することができる。
論文 参考訳(メタデータ) (2023-02-28T10:26:02Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。
本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T06:13:32Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Learning Monocular Visual Odometry via Self-Supervised Long-Term
Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。
本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。
我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文 参考訳(メタデータ) (2020-07-21T17:59:01Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。