論文の概要: One scalar is all you need -- absolute depth estimation using monocular
self-supervision
- arxiv url: http://arxiv.org/abs/2303.07662v1
- Date: Tue, 14 Mar 2023 07:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:05:55.018857
- Title: One scalar is all you need -- absolute depth estimation using monocular
self-supervision
- Title(参考訳): 1つのスカラーは必要なすべて -- 単分子自己スーパービジョンを用いた絶対深度推定
- Authors: Alexandra Dana, Nadav Carmel, Amit Shomer, Ofer Manela and Tomer Peleg
- Abstract要約: 自己教師付き単眼深度推定器は、画像のみを使用し、地中深度データがない新しいシーンで訓練または微調整することができる。
これらの推定器は、深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本稿では,地中深度で収集した既存のソースデータセットから,自己監督を用いて訓練した深度推定器へ深度スケールを転送する手法を提案する。
- 参考スコア(独自算出の注目度): 59.45414406974091
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Self-supervised monocular depth estimators can be trained or fine-tuned on
new scenes using only images and no ground-truth depth data, achieving good
accuracy. However, these estimators suffer from the inherent ambiguity of the
depth scale, significantly limiting their applicability. In this work, we
present a method for transferring the depth-scale from existing source datasets
collected with ground-truth depths to depth estimators that are trained using
self-supervision on a newly collected target dataset consisting of images only,
solving a significant limiting factor. We show that self-supervision based on
projective geometry results in predicted depths that are linearly correlated
with their ground-truth depths. Moreover, the linearity of this relationship
also holds when jointly training on images from two different (real or
synthetic) source and target domains. We utilize this observed property and
model the relationship between the ground-truth and the predicted up-to-scale
depths of images from the source domain using a single global scalar. Then, we
scale the predicted up-to-scale depths of images from the target domain using
the estimated global scaling factor, performing depth-scale transfer between
the two domains. This suggested method was evaluated on the target KITTI and
DDAD datasets, while using other real or synthetic source datasets, that have a
larger field-of-view, other image style or structural content. Our approach
achieves competitive accuracy on KITTI, even without using the specially
tailored vKITTI or vKITTI2 datasets, and higher accuracy on DDAD, when using
both real or synthetic source datasets.
- Abstract(参考訳): 自己教師付き単眼深度推定器は、画像のみを用いて訓練または微調整が可能で、地上の深度データがないため精度がよい。
しかし、これらの推定器は深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本研究では,画像のみからなる新たに収集したターゲットデータセットの自己スーパービジョンを用いて訓練した深度推定器に,地中深度で収集した既存のソースデータセットから深度スケールを転送する手法を提案する。
射影幾何学に基づく自己スーパービジョンは、地対深度と線形に相関する予測深度をもたらすことを示す。
さらに、この関係の線形性は、2つの異なる(実または合成)ソースとターゲットドメインからのイメージを共同でトレーニングする場合にも保持される。
この観測された特性を利用し、単一のグローバルスカラーを用いて、ソースドメインからの画像の奥行きと地表面の関係をモデル化する。
次に,推定された大域的スケーリング係数を用いて,対象領域からの画像の奥行きを推定し,この2領域間の奥行き移動を行う。
提案手法は,対象とするKITTIデータセットとDDADデータセットで評価され,他の実あるいは合成ソースデータセットでは,視野,他の画像スタイル,構造的内容がより大きい。
提案手法は,VKITTIデータセットやvKITTI2データセットを使用しなくても,KITTI上での競合精度を実現し,実データと合成データの両方を用いてDDAD上で高い精度を実現する。
関連論文リスト
- MICDrop: Masking Image and Depth Features via Complementary Dropout for Domain-Adaptive Semantic Segmentation [155.0797148367653]
Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインとラベルなしターゲットドメインの間のドメインギャップを埋めるタスクである。
深度不連続性はしばしばセグメンテーション境界と一致するため、幾何学的情報、すなわち深度予測を活用することを提案する。
提案手法は, 様々な UDA 手法にプラグインし, 標準 UDA ベンチマークで連続的に結果を改善することができることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:15:10Z) - Compositional Semantic Mix for Domain Adaptation in Point Cloud
Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。
本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T14:43:36Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - 3D-PL: Domain Adaptive Depth Estimation with 3D-aware Pseudo-Labeling [37.315964084413174]
我々は,実際のデータから信頼された疑似基底真理を生成して,直接の監視を行うドメイン適応フレームワークを開発する。
具体的には,(1)画像が同一内容の異なるスタイルのときの深度予測の一貫性を計測し,(2)3次元空間における深度値の完備化を学習するポイントクラウドコンプリートネットワークを介して,擬似ラベルを認識させることにより,擬似ラベルの2つのメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-19T17:54:17Z) - Ranking Distance Calibration for Cross-Domain Few-Shot Learning [91.22458739205766]
数ショット学習の最近の進歩は、より現実的なクロスドメイン設定を促進する。
ドメインギャップとソースとターゲットデータセット間のラベル空間の相違により、共有される知識は極めて限られている。
我々は,タスク内の相互k-アネレスト近傍を発見することで,目標距離行列の校正を行う。
論文 参考訳(メタデータ) (2021-12-01T03:36:58Z) - Domain Adaptation for Real-World Single View 3D Reconstruction [1.611271868398988]
教師なしのドメイン適応は、ラベル付き合成ソースドメインからラベルなしの実際のターゲットドメインに知識を転送するために使用することができる。
本稿では,3次元モデルでは対象のドメインデータが教師されないが,クラスラベルでは教師されないという事実を生かして,新しいアーキテクチャを提案する。
その結果はShapeNetをソースドメインとして、Object Domain Suite(ODDS)データセット内のドメインをターゲットとして実行されます。
論文 参考訳(メタデータ) (2021-08-24T22:02:27Z) - Domain Adaptive Monocular Depth Estimation With Semantic Information [13.387521845596149]
ドメインギャップを狭めるためにセマンティック情報を活用した対比トレーニングモデルを提案する。
提案したコンパクトモデルは,複雑な最新モデルに匹敵する最先端性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T18:50:41Z) - Flexible deep transfer learning by separate feature embeddings and
manifold alignment [0.0]
オブジェクト認識は、業界と防衛において重要な存在である。
残念ながら、既存のラベル付きデータセットでトレーニングされたアルゴリズムは、データ分布が一致しないため、直接新しいデータに一般化しない。
本稿では,各領域の特徴抽出を個別に学習することで,この制限を克服する新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-22T19:24:44Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Synthetic-to-Real Domain Adaptation for Lane Detection [5.811502603310248]
我々は、ラベルなしまたは部分的にラベル付けされたターゲットドメインデータとともに、豊富でランダムに生成された合成データからの学習を探索する。
これは、非現実的な合成領域で学んだモデルを実画像に適応させることの難しさを浮き彫りにする。
対象のドメインデータに適応するために、特定の画像と一致しない合成ラベルを用いる、新しいオートエンコーダベースのアプローチを開発する。
論文 参考訳(メタデータ) (2020-07-08T10:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。