論文の概要: On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation
- arxiv url: http://arxiv.org/abs/2109.06163v1
- Date: Mon, 13 Sep 2021 17:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:32:15.598886
- Title: On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation
- Title(参考訳): 自己監督深度推定のための画像合成損失の臭いについて
- Authors: Zhaoshuo Li, Nathan Drenkow, Hao Ding, Andy S. Ding, Alexander Lu,
Francis X. Creighton, Russell H. Taylor, Mathias Unberath
- Abstract要約: 画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
- 参考スコア(独自算出の注目度): 60.780823530087446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene depth estimation from stereo and monocular imagery is critical for
extracting 3D information for downstream tasks such as scene understanding.
Recently, learning-based methods for depth estimation have received much
attention due to their high performance and flexibility in hardware choice.
However, collecting ground truth data for supervised training of these
algorithms is costly or outright impossible. This circumstance suggests a need
for alternative learning approaches that do not require corresponding depth
measurements. Indeed, self-supervised learning of depth estimation provides an
increasingly popular alternative. It is based on the idea that observed frames
can be synthesized from neighboring frames if accurate depth of the scene is
known - or in this case, estimated. We show empirically that - contrary to
common belief - improvements in image synthesis do not necessitate improvement
in depth estimation. Rather, optimizing for image synthesis can result in
diverging performance with respect to the main prediction objective - depth. We
attribute this diverging phenomenon to aleatoric uncertainties, which originate
from data. Based on our experiments on four datasets (spanning street, indoor,
and medical) and five architectures (monocular and stereo), we conclude that
this diverging phenomenon is independent of the dataset domain and not
mitigated by commonly used regularization techniques. To underscore the
importance of this finding, we include a survey of methods which use image
synthesis, totaling 127 papers over the last six years. This observed
divergence has not been previously reported or studied in depth, suggesting
room for future improvement of self-supervised approaches which might be
impacted the finding.
- Abstract(参考訳): ステレオ画像および単眼画像からのシーン奥行き推定は,シーン理解などの下流タスクにおける3次元情報抽出に不可欠である。
近年,ハードウェア選択における高い性能と柔軟性から,深度推定のための学習ベースの手法が注目されている。
しかし、これらのアルゴリズムの教師付きトレーニングのための基礎的真理データ収集は費用がかかるか、あるいはまったく不可能である。
この状況は、対応する深さ測定を必要としない代替学習アプローチの必要性を示唆している。
実際、深さ推定の自己教師付き学習は、ますます人気のある代替手段となる。
観測されたフレームは、現場の正確な深さが分かっていれば隣り合うフレームから合成できるという考えに基づいており、この場合推定される。
一般的な信念とは違い,画像合成の改善は深度推定の改善を必要としないことを実証的に示す。
むしろ、画像合成の最適化は、主な予測目標である深さに関する性能のばらつきをもたらす可能性がある。
この発散現象を,データから生じるアレオータ的不確実性に分類する。
筆者らは,4つのデータセット(スパンニング・ストリート,屋内,医療)と5つのアーキテクチャ(モノラル・ステレオ)を実験した結果,この分散現象はデータセット領域とは独立であり,一般的な正規化手法では緩和されないと結論づけた。
この発見の重要性を強調するため,過去6年間に127件の論文を集計し,画像合成を用いた手法の検討を行った。
このばらつきを事前に報告したり、深く研究したりすることはなく、発見に影響を及ぼす可能性のある自己監督的アプローチの改善の余地が示唆されている。
関連論文リスト
- Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Depth Refinement for Improved Stereo Reconstruction [13.941756438712382]
立体画像からの深度推定の現在の技術は、なおも内蔵の欠点に悩まされている。
簡単な解析により、深度誤差は物体の距離に2乗比例することが明らかになった。
本研究では,深度推定に改良ネットワークを用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T12:21:08Z) - Unsupervised Monocular Depth Perception: Focusing on Moving Objects [5.489557739480878]
本稿では,光度誤差を意図的に操作することで,効率よく困難に対処できることを示す。
まず、光学誤差マップにおいて、隠蔽または動的画素を統計的外れ値として考慮した外れ値マスキング手法を提案する。
外部マスキングにより、ネットワークはカメラと反対方向に移動する物体の深さをより正確に学習する。
論文 参考訳(メタデータ) (2021-08-30T08:45:02Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Self-Guided Instance-Aware Network for Depth Completion and Enhancement [6.319531161477912]
既存の手法では,画素ワイド画像の内容とそれに対応する近傍の深度値に基づいて,欠落した深度測定を直接補間する。
本稿では、自己誘導機構を利用して、深度復元に必要なインスタンスレベルの特徴を抽出する自己誘導型インスタンス認識ネットワーク(SG-IANet)を提案する。
論文 参考訳(メタデータ) (2021-05-25T19:41:38Z) - Fast Depth Estimation for View Synthesis [9.243157709083672]
ステレオ画像のシーケンスからの距離/深さを推定することは、3次元視覚において重要な要素である。
本稿では,拡張畳み込み,密結合型畳み込みモジュール,コンパクトデコーダ,スキップ接続を利用した新しい学習ベースフレームワークを提案する。
筆者らのネットワークは,それぞれ45%,34%の深さ推定とビュー合成を平均的に改善し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-14T14:10:42Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。