論文の概要: One scalar is all you need -- absolute depth estimation using monocular
self-supervision
- arxiv url: http://arxiv.org/abs/2303.07662v2
- Date: Wed, 15 Mar 2023 07:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 10:24:23.228000
- Title: One scalar is all you need -- absolute depth estimation using monocular
self-supervision
- Title(参考訳): 1つのスカラーは必要なすべて -- 単分子自己スーパービジョンを用いた絶対深度推定
- Authors: Alexandra Dana, Nadav Carmel, Amit Shomer, Ofer Manela and Tomer Peleg
- Abstract要約: 自己教師付き単眼深度推定器は、画像のみを使用し、地中深度データがない新しいシーンで訓練または微調整することができる。
これらの推定器は、深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本稿では,地中深度で収集した既存のソースデータセットから,自己監督を用いて訓練した深度推定器へ深度スケールを転送する手法を提案する。
- 参考スコア(独自算出の注目度): 59.45414406974091
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised monocular depth estimators can be trained or fine-tuned on
new scenes using only images and no ground-truth depth data, achieving good
accuracy. However, these estimators suffer from the inherent ambiguity of the
depth scale, significantly limiting their applicability. In this work, we
present a method for transferring the depth-scale from existing source datasets
collected with ground-truth depths to depth estimators that are trained using
self-supervision on a newly collected target dataset consisting of images only,
solving a significant limiting factor. We show that self-supervision based on
projective geometry results in predicted depths that are linearly correlated
with their ground-truth depths. Moreover, the linearity of this relationship
also holds when jointly training on images from two different (real or
synthetic) source and target domains. We utilize this observed property and
model the relationship between the ground-truth and the predicted up-to-scale
depths of images from the source domain using a single global scalar. Then, we
scale the predicted up-to-scale depths of images from the target domain using
the estimated global scaling factor, performing depth-scale transfer between
the two domains. This suggested method was evaluated on the target KITTI and
DDAD datasets, while using other real or synthetic source datasets, that have a
larger field-of-view, other image style or structural content. Our approach
achieves competitive accuracy on KITTI, even without using the specially
tailored vKITTI or vKITTI2 datasets, and higher accuracy on DDAD, when using
both real or synthetic source datasets.
- Abstract(参考訳): 自己教師付き単眼深度推定器は、画像のみを用いて訓練または微調整が可能で、地上の深度データがないため精度がよい。
しかし、これらの推定器は深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本研究では,画像のみからなる新たに収集したターゲットデータセットの自己スーパービジョンを用いて訓練した深度推定器に,地中深度で収集した既存のソースデータセットから深度スケールを転送する手法を提案する。
射影幾何学に基づく自己スーパービジョンは、地対深度と線形に相関する予測深度をもたらすことを示す。
さらに、この関係の線形性は、2つの異なる(実または合成)ソースとターゲットドメインからのイメージを共同でトレーニングする場合にも保持される。
この観測された特性を利用し、単一のグローバルスカラーを用いて、ソースドメインからの画像の奥行きと地表面の関係をモデル化する。
次に,推定された大域的スケーリング係数を用いて,対象領域からの画像の奥行きを推定し,この2領域間の奥行き移動を行う。
提案手法は,対象とするKITTIデータセットとDDADデータセットで評価され,他の実あるいは合成ソースデータセットでは,視野,他の画像スタイル,構造的内容がより大きい。
提案手法は,VKITTIデータセットやvKITTI2データセットを使用しなくても,KITTI上での競合精度を実現し,実データと合成データの両方を用いてDDAD上で高い精度を実現する。
関連論文リスト
- Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Domain Adaptive Monocular Depth Estimation With Semantic Information [13.387521845596149]
ドメインギャップを狭めるためにセマンティック情報を活用した対比トレーニングモデルを提案する。
提案したコンパクトモデルは,複雑な最新モデルに匹敵する最先端性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T18:50:41Z) - S2R-DepthNet: Learning a Generalizable Depth-specific Structural
Representation [63.58891781246175]
人間はリアルなイメージではなくスケッチからシーンの3次元幾何学を推測することができ、空間構造がシーンの深さを理解する上で基本的な役割を果たすことを示す。
我々は,深度推定に不可欠な特徴を捉え,無関係なスタイル情報を無視する,深度特異的な構造表現の学習を初めて行う。
当社のS2R-DepthNetは、合成データでのみ訓練されているにもかかわらず、目に見えない実際のデータに直接一般化できます。
論文 参考訳(メタデータ) (2021-04-02T03:55:41Z) - Variational Monocular Depth Estimation for Reliability Prediction [12.951621755732544]
教師付き学習手法の代替として,単眼深度推定のための自己教師付き学習が広く研究されている。
従来はモデル構造の変更による深度推定の精度向上に成功している。
本稿では, 単眼深度推定のための変分モデルを理論的に定式化し, 推定深度画像の信頼性を推定する。
論文 参考訳(メタデータ) (2020-11-24T06:23:51Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z) - DESC: Domain Adaptation for Depth Estimation via Semantic Consistency [24.13837264978472]
単眼深度推定モデルの訓練のための領域適応手法を提案する。
セマンティックな予測と低レベルのエッジ機能を活用することで、ドメインギャップを埋める。
本手法は,単眼深度推定のための標準領域適応ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2020-09-03T10:54:05Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。