論文の概要: SelfOdom: Self-supervised Egomotion and Depth Learning via
Bi-directional Coarse-to-Fine Scale Recovery
- arxiv url: http://arxiv.org/abs/2211.08904v2
- Date: Sat, 2 Sep 2023 16:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 07:12:44.507305
- Title: SelfOdom: Self-supervised Egomotion and Depth Learning via
Bi-directional Coarse-to-Fine Scale Recovery
- Title(参考訳): SelfOdom: 双方向の粗大なスケール回復による自己指導型エゴモーションと深層学習
- Authors: Hao Qu, Lilian Zhang, Xiaoping Hu, Xiaofeng He, Xianfei Pan, Changhao
Chen
- Abstract要約: SelfOdomは、単眼画像からポーズと深さの推定を学習するための、自己教師付きデュアルネットワークフレームワークである。
2段階のプロセスでメートル法スケールを回復できる新しい粗大なトレーニング戦略を導入する。
私たちのモデルは、夜間の難易度を含む通常の照明条件と難易度の両方で優れています。
- 参考スコア(独自算出の注目度): 12.791122117651273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately perceiving location and scene is crucial for autonomous driving
and mobile robots. Recent advances in deep learning have made it possible to
learn egomotion and depth from monocular images in a self-supervised manner,
without requiring highly precise labels to train the networks. However,
monocular vision methods suffer from a limitation known as scale-ambiguity,
which restricts their application when absolute-scale is necessary. To address
this, we propose SelfOdom, a self-supervised dual-network framework that can
robustly and consistently learn and generate pose and depth estimates in global
scale from monocular images. In particular, we introduce a novel coarse-to-fine
training strategy that enables the metric scale to be recovered in a two-stage
process. Furthermore, SelfOdom is flexible and can incorporate inertial data
with images, which improves its robustness in challenging scenarios, using an
attention-based fusion module. Our model excels in both normal and challenging
lighting conditions, including difficult night scenes. Extensive experiments on
public datasets have demonstrated that SelfOdom outperforms representative
traditional and learning-based VO and VIO models.
- Abstract(参考訳): 正確な位置とシーンの認識は、自動運転と移動ロボットにとって不可欠だ。
近年のディープラーニングの進歩により、ネットワークのトレーニングに高度に正確なラベルを必要とせず、単眼画像から感情や深度を自己管理的に学習することが可能になった。
しかし、単分子視覚法はスケール曖昧性と呼ばれる限界に悩まされ、絶対スケールが必要なときに応用を制限する。
これを解決するために,モノクロ画像からグローバルスケールでのポーズと深さ推定を頑健かつ一貫して学習し,生成できる自己教師型デュアルネットワークフレームワークであるSelfOdomを提案する。
特に,2段階のプロセスでメートル法スケールを復元できる,新しい粗細なトレーニング戦略を提案する。
さらに、selfodomは柔軟で、イメージに慣性データを組み込むことができるため、注意に基づくフュージョンモジュールを使用して、挑戦的なシナリオにおける堅牢性が向上する。
私たちのモデルは、夜間の難易度を含む通常の照明条件と難易度の両方で優れています。
公開データセットに関する大規模な実験では、SelfOdomが従来のVOおよびVIOモデルよりも優れていることが示されている。
関連論文リスト
- NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training [2.4240014793575138]
我々は,効率的な単眼深度推定学習フレームワークであるNimbleDを紹介する。
このフレームワークはカメラ固有の機能を必要とせず、公開ビデオの大規模な事前トレーニングを可能にする。
論文 参考訳(メタデータ) (2024-08-26T10:50:14Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for
Indoor Scenes [47.76269541664071]
本稿では,フレームと低テクスチャの大きな回転に起因する屋内シーンにおける自己教師型単眼深度推定の課題に対処する。
モノクラーシーケンスから粗いカメラポーズを多視点形状で取得し,前者に対応する。
低テクスチャの効果を和らげるために、視覚変換器のグローバルな推論と過度に適合する反復的な自己蒸留機構を組み合わせる。
論文 参考訳(メタデータ) (2023-09-26T17:59:57Z) - Self-Supervised Multi-Object Tracking For Autonomous Driving From
Consistency Across Timescales [53.55369862746357]
自己管理型マルチオブジェクトトラッカーは、生のドメイン固有データから学習できるという大きな可能性を秘めている。
しかし、その再識別精度は、監督対象よりも低い。
本稿では,複数の連続フレームから再同定特徴を自己教師付きで学習できる学習目標を提案する。
論文 参考訳(メタデータ) (2023-04-25T20:47:29Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - SelfD: Self-Learning Large-Scale Driving Policies From the Web [13.879536370173506]
SelfDは、大量のオンラインモノクロイメージを利用することで、スケーラブルな運転を学ぶためのフレームワークである。
公開されているYouTubeビデオの大規模なデータセットを使用して、SelfDをトレーニングし、その一般化のメリットを、困難なナビゲーションシナリオ全体にわたって包括的に分析します。
論文 参考訳(メタデータ) (2022-04-21T17:58:36Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Self-Supervised Monocular Depth and Ego-Motion Estimation in Endoscopy:
Appearance Flow to the Rescue [38.168759071532676]
単眼ビデオから深度とエゴモーションを計算するために,自己教師付き学習技術が応用されている。
本研究では,明るさの不整合問題に対処するため,外観フローと呼ばれる新しい概念を導入する。
我々は,単眼深度と自我運動を同時に推定する統合的な自己監督フレームワークを構築した。
論文 参考訳(メタデータ) (2021-12-15T13:51:10Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。