Fugu-MT 論文翻訳(概要): Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World

論文の概要: Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World

arxiv url: http://arxiv.org/abs/2203.05712v1
Date: Fri, 11 Mar 2022 01:51:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-14 13:07:51.675915
Title: Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World
Title（参考訳）: 仮想世界からの学習による統一的な単眼視覚オドメトリを目指して
Authors: Sen Zhang, Jing Zhang, Dacheng Tao
Abstract要約: 仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
参考スコア（独自算出の注目度）: 83.36195426897768
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular visual odometry (VO) has attracted extensive research attention by providing real-time vehicle motion from cost-effective camera images. However, state-of-the-art optimization-based monocular VO methods suffer from the scale inconsistency problem for long-term predictions. Deep learning has recently been introduced to address this issue by leveraging stereo sequences or ground-truth motions in the training dataset. However, it comes at an additional cost for data collection, and such training data may not be available in all datasets. In this work, we propose VRVO, a novel framework for retrieving the absolute scale from virtual data that can be easily obtained from modern simulation environments, whereas in the real domain no stereo or ground-truth data are required in either the training or inference phases. Specifically, we first train a scale-aware disparity network using both monocular real images and stereo virtual data. The virtual-to-real domain gap is bridged by using an adversarial training strategy to map images from both domains into a shared feature space. The resulting scale-consistent disparities are then integrated with a direct VO system by constructing a virtual stereo objective that ensures the scale consistency over long trajectories. Additionally, to address the suboptimality issue caused by the separate optimization backend and the learning process, we further propose a mutual reinforcement pipeline that allows bidirectional information flow between learning and optimization, which boosts the robustness and accuracy of each other. We demonstrate the effectiveness of our framework on the KITTI and vKITTI2 datasets.
Abstract（参考訳）: 単眼視覚計測(VO)は、コスト効率のよいカメラ画像からリアルタイム車両の動きを提供することによって、幅広い研究の注目を集めている。しかしながら、最先端最適化に基づく単眼型vo法は、長期予測のスケール不整合問題に苦しむ。トレーニングデータセットでステレオシーケンスや接地動作を活用することで、この問題に対処するためにディープラーニングが最近導入された。しかし、データ収集には追加コストがかかるため、トレーニングデータはすべてのデータセットで利用できない可能性がある。本研究では,従来のシミュレーション環境から容易に得ることができる仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。具体的には,まず,単眼実画像とステレオ仮想データの両方を用いて,スケールアウェアな異質性ネットワークを訓練する。仮想と現実のドメインギャップは、両ドメインのイメージを共有機能空間にマッピングする対角的なトレーニング戦略を用いてブリッジされる。結果として生じるスケール一貫性の相違は、長い軌道上のスケール一貫性を保証する仮想ステレオオブジェクトを構築することで直接VOシステムに統合される。さらに、個別の最適化バックエンドと学習プロセスによって生じる最適性の問題に対処するため、学習と最適化の間の双方向情報フローを可能にする相互強化パイプラインを提案し、互いの堅牢性と精度を高める。我々は,KITTIとvKITTI2データセットにおけるフレームワークの有効性を示す。

関連論文リスト

4D-VLA: Spatiotemporal Vision-Language-Action Pretraining with Cross-Scene Calibration [31.111439909825627]
既存の手法は通常、単純な観察を入力としてデータセットのアクション分布をモデル化する。カオスの源泉への入力に、4D情報を効果的に統合する新しいアプローチである4D-VLAを提案する。我々のモデルは既存の手法を常に上回り、より強い空間的理解と適応性を示す。
論文参考訳（メタデータ） (2025-06-27T14:09:29Z)
Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文参考訳（メタデータ） (2024-11-14T03:01:36Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文参考訳（メタデータ） (2024-03-23T22:32:06Z)
Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks [47.07188762367792]
ARSimは3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的としたフレームワークである。実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。
論文参考訳（メタデータ） (2024-03-22T17:49:11Z)
Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文参考訳（メタデータ） (2023-12-18T13:51:56Z)
Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文参考訳（メタデータ） (2023-08-04T10:28:48Z)
Progressive Transformation Learning for Leveraging Virtual Images in Training [21.590496842692744]
本稿では,PTL(Progressive Transformation Learning)を導入し,リアル性を高めた仮想画像を追加することにより,トレーニングデータセットを増強する。 1) 領域ギャップに応じて仮想イメージのプールからサブセットを選択する,2) 選択した仮想イメージを変換してリアリズムを向上する,3) 変換された仮想イメージをトレーニングセットに追加する,という3つのステップを段階的に繰り返す。実験により、PTLは、特に小さなデータとクロスドメインシステムにおいて、ベースラインよりも大幅にパフォーマンスが向上することが示された。
論文参考訳（メタデータ） (2022-11-03T13:04:15Z)
Learning Collision-Free Space Detection from Stereo Images: Homography Matrix Brings Better Data Augmentation [16.99302954185652]
少数のトレーニングサンプルを使用して、深い畳み込みニューラルネットワーク(DCNN)を訓練することは、依然としてオープンな課題です。本稿では,dcnnの性能向上に有効なトレーニングデータ拡張手法について検討する。
論文参考訳（メタデータ） (2020-12-14T19:14:35Z)
Deflating Dataset Bias Using Synthetic Data Augmentation [8.509201763744246]
自律走行車(AV)の視覚タスクの最先端の手法は、教師あり学習に依存している。本研究の目的は,視覚タスクにおける実際のデータセットのギャップを埋めるために,ターゲットとなる合成データ拡張の利用を検討することである。 AVに実用的な3つの異なるコンピュータビジョンタスクに関する実証研究は、トレーニングミックスに合成データを持つことは、クロスデータセットの一般化性能を著しく向上させることを一貫して示している。
論文参考訳（メタデータ） (2020-04-28T21:56:10Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。