論文の概要: Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World
- arxiv url: http://arxiv.org/abs/2203.05712v1
- Date: Fri, 11 Mar 2022 01:51:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:07:51.675915
- Title: Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World
- Title(参考訳): 仮想世界からの学習による統一的な単眼視覚オドメトリを目指して
- Authors: Sen Zhang, Jing Zhang, Dacheng Tao
- Abstract要約: 仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
- 参考スコア(独自算出の注目度): 83.36195426897768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular visual odometry (VO) has attracted extensive research attention by
providing real-time vehicle motion from cost-effective camera images. However,
state-of-the-art optimization-based monocular VO methods suffer from the scale
inconsistency problem for long-term predictions. Deep learning has recently
been introduced to address this issue by leveraging stereo sequences or
ground-truth motions in the training dataset. However, it comes at an
additional cost for data collection, and such training data may not be
available in all datasets. In this work, we propose VRVO, a novel framework for
retrieving the absolute scale from virtual data that can be easily obtained
from modern simulation environments, whereas in the real domain no stereo or
ground-truth data are required in either the training or inference phases.
Specifically, we first train a scale-aware disparity network using both
monocular real images and stereo virtual data. The virtual-to-real domain gap
is bridged by using an adversarial training strategy to map images from both
domains into a shared feature space. The resulting scale-consistent disparities
are then integrated with a direct VO system by constructing a virtual stereo
objective that ensures the scale consistency over long trajectories.
Additionally, to address the suboptimality issue caused by the separate
optimization backend and the learning process, we further propose a mutual
reinforcement pipeline that allows bidirectional information flow between
learning and optimization, which boosts the robustness and accuracy of each
other. We demonstrate the effectiveness of our framework on the KITTI and
vKITTI2 datasets.
- Abstract(参考訳): 単眼視覚計測(VO)は、コスト効率のよいカメラ画像からリアルタイム車両の動きを提供することによって、幅広い研究の注目を集めている。
しかしながら、最先端最適化に基づく単眼型vo法は、長期予測のスケール不整合問題に苦しむ。
トレーニングデータセットでステレオシーケンスや接地動作を活用することで、この問題に対処するためにディープラーニングが最近導入された。
しかし、データ収集には追加コストがかかるため、トレーニングデータはすべてのデータセットで利用できない可能性がある。
本研究では,従来のシミュレーション環境から容易に得ることができる仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
具体的には,まず,単眼実画像とステレオ仮想データの両方を用いて,スケールアウェアな異質性ネットワークを訓練する。
仮想と現実のドメインギャップは、両ドメインのイメージを共有機能空間にマッピングする対角的なトレーニング戦略を用いてブリッジされる。
結果として生じるスケール一貫性の相違は、長い軌道上のスケール一貫性を保証する仮想ステレオオブジェクトを構築することで直接VOシステムに統合される。
さらに、個別の最適化バックエンドと学習プロセスによって生じる最適性の問題に対処するため、学習と最適化の間の双方向情報フローを可能にする相互強化パイプラインを提案し、互いの堅牢性と精度を高める。
我々は,KITTIとvKITTI2データセットにおけるフレームワークの有効性を示す。
関連論文リスト
- Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Progressive Transformation Learning for Leveraging Virtual Images in
Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。
1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。
実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-11-03T13:04:15Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Learning Collision-Free Space Detection from Stereo Images: Homography
Matrix Brings Better Data Augmentation [16.99302954185652]
少数のトレーニングサンプルを使用して、深い畳み込みニューラルネットワーク(DCNN)を訓練することは、依然としてオープンな課題です。
本稿では,dcnnの性能向上に有効なトレーニングデータ拡張手法について検討する。
論文 参考訳(メタデータ) (2020-12-14T19:14:35Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z) - Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。
本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。
AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文 参考訳(メタデータ) (2020-04-28T21:56:10Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。