論文の概要: Multimodal Scale Consistency and Awareness for Monocular Self-Supervised
Depth Estimation
- arxiv url: http://arxiv.org/abs/2103.02451v1
- Date: Wed, 3 Mar 2021 15:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 15:04:02.164346
- Title: Multimodal Scale Consistency and Awareness for Monocular Self-Supervised
Depth Estimation
- Title(参考訳): 単眼自己監督深さ推定のためのマルチモーダルスケール一貫性と認識
- Authors: Hemang Chawla, Arnav Varma, Elahe Arani, Bahram Zonooz
- Abstract要約: 単眼ビデオの自己監督アプローチは、長いシーケンスにわたってスケール不整合に苦しむ。
外観ベースの損失を補うために、動的に重み付けされたGPS-to-Scale(g2s)損失を提案する。
低周波GPSデータによるトレーニングでも性能を向上させるため、推論時のスケール一貫性と認識深度推定を実証します。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense depth estimation is essential to scene-understanding for autonomous
driving. However, recent self-supervised approaches on monocular videos suffer
from scale-inconsistency across long sequences. Utilizing data from the
ubiquitously copresent global positioning systems (GPS), we tackle this
challenge by proposing a dynamically-weighted GPS-to-Scale (g2s) loss to
complement the appearance-based losses. We emphasize that the GPS is needed
only during the multimodal training, and not at inference. The relative
distance between frames captured through the GPS provides a scale signal that
is independent of the camera setup and scene distribution, resulting in richer
learned feature representations. Through extensive evaluation on multiple
datasets, we demonstrate scale-consistent and -aware depth estimation during
inference, improving the performance even when training with low-frequency GPS
data.
- Abstract(参考訳): 深度推定は、自律運転におけるシーン理解に不可欠である。
しかし,最近の単眼ビデオに対する自己教師ありアプローチは,長いシーケンスにわたるスケール不整合に苦しむ。
ユビキタスに共存するグローバル測位システム (gps) のデータを利用して, 出現による損失を補うために, 動的重み付けgps-to-scale (g2s) 損失を提案する。
我々は、GPSはマルチモーダルトレーニングでのみ必要であり、推論では必要ではないことを強調する。
GPSで捉えたフレーム間の相対距離は、カメラの設定やシーンの分布に依存しないスケール信号を提供し、結果としてより豊かな特徴表現をもたらす。
複数のデータセットの広範な評価により、推論中のスケール一貫性と認識深さの推定を実証し、低周波GPSデータでトレーニングしてもパフォーマンスが向上します。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Compression of GPS Trajectories using Autoencoders [6.044912425856236]
我々は,GPSトラジェクトリを圧縮・再構成するために,lstm-autoencoder を用いた手法を提案する。
この性能は他の軌道圧縮アルゴリズム(ダグラス・ペッカー)と比較される。
論文 参考訳(メタデータ) (2023-01-18T10:32:53Z) - Unsupervised Visual Odometry and Action Integration for PointGoal
Navigation in Indoor Environment [14.363948775085534]
屋内環境におけるポイントゴールナビゲーションは、個人ロボットが特定の地点に向かうための基本的なタスクである。
GPS信号を使わずにPointGoalナビゲーションの精度を向上させるために、ビジュアル・オドメトリー(VO)を用い、教師なしで訓練された新しいアクション統合モジュール(AIM)を提案する。
実験により,提案システムは良好な結果が得られ,Gibsonデータセット上で部分的に教師付き学習アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-10-02T03:12:03Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - DeepScale: An Online Frame Size Adaptation Framework to Accelerate
Visual Multi-object Tracking [8.878656943106934]
DeepScaleは、追跡スループットを高速化するモデルに依存しないフレームサイズ選択アプローチである。
フレームサイズを実行時に適応させることで、トラッキング精度と速度の適切なトレードオフを見つけることができる。
最先端のトラッカーであるDeepScale++と比較して、DeepScaleの亜種であるDeepScale++は、適度な劣化だけで1.57倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-22T00:12:58Z) - Unsupervised Scale-consistent Depth Learning from Video [131.3074342883371]
本研究では,単眼深度推定器SC-Depthを提案する。
スケール一貫性予測の能力により,我々の単分子学習深層ネットワークは簡単にORB-SLAM2システムに統合可能であることを示す。
提案したハイブリッドPseudo-RGBD SLAMは、KITTIにおいて魅力的な結果を示し、追加のトレーニングなしでKAISTデータセットにうまく一般化する。
論文 参考訳(メタデータ) (2021-05-25T02:17:56Z) - Unsupervised Monocular Depth Learning with Integrated Intrinsics and
Spatio-Temporal Constraints [61.46323213702369]
本研究は,大規模深度マップとエゴモーションを予測可能な教師なし学習フレームワークを提案する。
本結果は,KITTI運転データセットの複数シーケンスにおける現在の最先端技術と比較して,高い性能を示す。
論文 参考訳(メタデータ) (2020-11-02T22:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。