論文の概要: Embodiment: Self-Supervised Depth Estimation Based on Camera Models
- arxiv url: http://arxiv.org/abs/2408.01565v2
- Date: Thu, 29 Aug 2024 01:32:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 18:25:25.225897
- Title: Embodiment: Self-Supervised Depth Estimation Based on Camera Models
- Title(参考訳): エンボディメント:カメラモデルに基づく自己監督深度推定
- Authors: Jinchang Zhang, Praveen Kumar Reddy, Xue-Iuan Wong, Yiannis Aloimonos, Guoyu Lu,
- Abstract要約: 自己監督法はラベル付けコストを伴わないため、大きな可能性を秘めている。
しかし, 自己指導型学習は, 3次元再構成と深度推定性能において, 教師あり学習と大きなギャップがある。
カメラの物理的特性をモデルに埋め込むことで、地上領域と地上に接続された領域の深さ先を計算できる。
- 参考スコア(独自算出の注目度): 17.931220115676258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth estimation is a critical topic for robotics and vision-related tasks. In monocular depth estimation, in comparison with supervised learning that requires expensive ground truth labeling, self-supervised methods possess great potential due to no labeling cost. However, self-supervised learning still has a large gap with supervised learning in 3D reconstruction and depth estimation performance. Meanwhile, scaling is also a major issue for monocular unsupervised depth estimation, which commonly still needs ground truth scale from GPS, LiDAR, or existing maps to correct. In the era of deep learning, existing methods primarily rely on exploring image relationships to train unsupervised neural networks, while the physical properties of the camera itself such as intrinsics and extrinsics are often overlooked. These physical properties are not just mathematical parameters; they are embodiments of the camera's interaction with the physical world. By embedding these physical properties into the deep learning model, we can calculate depth priors for ground regions and regions connected to the ground based on physical principles, providing free supervision signals without the need for additional sensors. This approach is not only easy to implement but also enhances the effects of all unsupervised methods by embedding the camera's physical properties into the model, thereby achieving an embodied understanding of the real world.
- Abstract(参考訳): 深さ推定はロボット工学と視覚関連タスクにとって重要なトピックである。
単眼深度推定では、高価な地中レーティングを必要とする教師あり学習と比較して、自己教師あり手法はラベリングコストを伴わないため、大きな可能性を秘めている。
しかし, 自己指導型学習は, 3次元再構成と深度推定性能において, 教師あり学習と大きなギャップがある。
一方、スケーリングは単眼で教師なし深度推定を行う上でも大きな問題であり、GPSやLiDAR、あるいは既存の地図からの地上の真理スケールを必要とすることが多い。
ディープラーニングの時代には、既存の手法は主に教師なしニューラルネットワークを訓練するための画像関係の探索に頼っている。
これらの物理的性質は単なる数学的パラメータではなく、カメラと物理世界との相互作用の具体化である。
深層学習モデルにこれらの物理特性を埋め込むことで、物理原理に基づいて地上と接する領域の深度先を計算し、センサの追加を必要とせずに、自由な監視信号を提供する。
このアプローチは実装が容易であるだけでなく、カメラの物理的特性をモデルに埋め込むことによって、教師なしのすべての方法の効果を高め、現実世界の具体的理解を実現する。
関連論文リスト
- Uncertainty and Self-Supervision in Single-View Depth [0.8158530638728501]
シングルビューの深さ推定は、単一のビューから3次元幾何学を説明する複数の解が存在するため、不適切な問題である。
ディープニューラルネットワークは単一の視点から深度を捉えるのに有効であることが示されているが、現在の方法論の大半は本質的に決定論的である。
我々はベイジアンディープニューラルネットワークにおける教師付き単一視点深度の不確かさを定量化することでこの問題に対処した。
論文 参考訳(メタデータ) (2024-06-20T11:46:17Z) - Motion Degeneracy in Self-supervised Learning of Elevation Angle
Estimation for 2D Forward-Looking Sonar [4.683630397028384]
本研究は, 合成画像を用いた事前学習を行なわずに, 高度角推定の安定な自己教師付き学習を実現することを目的とする。
まず,主監督信号に関連する2次元前方ソナーの運動場を解析する。
論文 参考訳(メタデータ) (2023-07-30T08:06:11Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z) - Depth by Poking: Learning to Estimate Depth from Self-Supervised
Grasping [6.382990675677317]
我々は、RGB-D画像から深度を推定するためにニューラルネットワークモデルを訓練する。
我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。
本手法は従来の構造光センサよりも根平均二乗誤差が有意に低いことを示す。
論文 参考訳(メタデータ) (2020-06-16T03:34:26Z) - Exploring the Capabilities and Limits of 3D Monocular Object Detection
-- A Study on Simulation and Real World Data [0.0]
単眼カメラデータに基づく3次元物体検出が自動運転の鍵となる。
近年のディープラーニング手法は, 単一の画像から深度情報を復元する有望な結果を示す。
本稿では,深度推定の異なるパラメータ化が可能な3次元物体検出パイプラインの性能評価を行う。
論文 参考訳(メタデータ) (2020-05-15T09:05:17Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。