論文の概要: SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2008.04017v3
- Date: Sat, 14 Nov 2020 21:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 23:22:02.337881
- Title: SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving
- Title(参考訳): syndistnet: 自律運転のための意味セグメンテーションを用いた自己教師付き単眼カメラ距離推定
- Authors: Varun Ravi Kumar, Marvin Klingner, Senthil Yogamani, Stefan Milz, Tim
Fingscheidt and Patrick Maeder
- Abstract要約: モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
- 参考スコア(独自算出の注目度): 37.50089104051591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art self-supervised learning approaches for monocular depth
estimation usually suffer from scale ambiguity. They do not generalize well
when applied on distance estimation for complex projection models such as in
fisheye and omnidirectional cameras. This paper introduces a novel multi-task
learning strategy to improve self-supervised monocular distance estimation on
fisheye and pinhole camera images. Our contribution to this work is threefold:
Firstly, we introduce a novel distance estimation network architecture using a
self-attention based encoder coupled with robust semantic feature guidance to
the decoder that can be trained in a one-stage fashion. Secondly, we integrate
a generalized robust loss function, which improves performance significantly
while removing the need for hyperparameter tuning with the reprojection loss.
Finally, we reduce the artifacts caused by dynamic objects violating static
world assumptions using a semantic masking strategy. We significantly improve
upon the RMSE of previous work on fisheye by 25% reduction in RMSE. As there is
little work on fisheye cameras, we evaluated the proposed method on KITTI using
a pinhole model. We achieved state-of-the-art performance among self-supervised
methods without requiring an external scale estimation.
- Abstract(参考訳): 単眼深度推定のための最先端の自己教師付き学習手法は、通常スケールの曖昧さに苦しむ。
魚眼や全方位カメラのような複雑な投影モデルの距離推定に適用するとうまく一般化しない。
本稿では,魚眼画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するためのマルチタスク学習手法を提案する。
まず、一段階の方法で訓練可能なデコーダに対して、ロバストな意味的特徴指導と結合した自己アテンションに基づくエンコーダを用いた、新しい距離推定ネットワークアーキテクチャを導入する。
第2に,一般化されたロバスト損失関数を統合することで,再プロジェクション損失を伴うハイパーパラメータチューニングの必要性をなくしながら,性能を大幅に向上させる。
最後に,静的世界仮定に違反する動的オブジェクトによるアーティファクトを,セマンティックマスキング戦略を用いて削減する。
我々は,これまでのfisheyeにおけるrmseの25%削減により,rmseを著しく改善した。
魚眼カメラの研究はほとんどないため,ピンホールモデルを用いたKITTIにおける提案手法の評価を行った。
外部スケール推定を必要とせず,自己教師あり手法の最先端性能を実現する。
関連論文リスト
- FisheyeDepth: A Real Scale Self-Supervised Depth Estimation Model for Fisheye Camera [8.502741852406904]
魚眼カメラに適した自己監督深度推定モデルである魚眼深度について述べる。
魚眼カメラモデルを訓練中の投射と再投射の段階に組み込んで画像歪みの処理を行う。
また、連続するフレーム間の幾何学的投影に実際のポーズ情報を組み込んで、従来のポーズネットワークで推定されたポーズを置き換える。
論文 参考訳(メタデータ) (2024-09-23T14:31:42Z) - Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - FG-Depth: Flow-Guided Unsupervised Monocular Depth Estimation [17.572459787107427]
そこで本研究では,典型的な測光損失を代替する流量蒸留損失と,不適切な画素を除去するための前向きフローベースマスクを提案する。
提案手法は,KITTIとNYU-Depth-v2の両方のデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-01-20T04:02:13Z) - CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised
Learning of Depth and Pose [13.581694284209885]
光度差は、未ラベルのモノクロビデオから深度とカメラのポーズを推定するためにニューラルネットワークを訓練するために使用される。
本稿では,アフィン変換とビュー合成によって生じる流れ場と深さ構造の違いを利用して,移動物体とオクルージョンを取り扱う。
ネットワークを追加することなく、より意味的な情報と文脈的な情報を持つ特徴の差を測定することにより、テクスチャレス領域がモデル最適化に与える影響を緩和する。
論文 参考訳(メタデータ) (2022-12-12T12:18:24Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - $S^3$Net: Semantic-Aware Self-supervised Depth Estimation with Monocular
Videos and Synthetic Data [11.489124536853172]
S3$Netは、学習のための合成画像と実世界の画像を組み合わせた自己教師型フレームワークである。
我々は、この自己教師付きフレームワークをトレーニングするユニークな方法を示し、従来の合成教師付きアプローチよりも15%以上の改善を実現した。
論文 参考訳(メタデータ) (2020-07-28T22:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。