論文の概要: Improving 360 Monocular Depth Estimation via Non-local Dense Prediction
Transformer and Joint Supervised and Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2109.10563v2
- Date: Thu, 23 Sep 2021 06:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 11:44:22.576139
- Title: Improving 360 Monocular Depth Estimation via Non-local Dense Prediction
Transformer and Joint Supervised and Self-supervised Learning
- Title(参考訳): 非局所Dense Prediction Transformerと共同監督型自己教師型学習による360度単眼深度推定の改善
- Authors: Ilwi Yun, Hyuk-Jae Lee, Chae Eun Rhee
- Abstract要約: 本研究では,従来の研究を限定した領域を改良した360度単眼深度推定法を提案する。
まず,重力対応ビデオのみを利用した自己教師付き360度深度学習手法を提案する。
次に,教師付き学習と自己指導型学習を組み合わせた共同学習手法を提案する。
第三に、深度を再構築する際に、視覚変換器によって符号化されたグローバル情報を保持できる非局所核融合ブロックを提案する。
- 参考スコア(独自算出の注目度): 17.985386835096353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to difficulties in acquiring ground truth depth of equirectangular (360)
images, the quality and quantity of equirectangular depth data today is
insufficient to represent the various scenes in the world. Therefore, 360 depth
estimation studies, which relied solely on supervised learning, are destined to
produce unsatisfactory results. Although self-supervised learning methods
focusing on equirectangular images (EIs) are introduced, they often have
incorrect or non-unique solutions, causing unstable performance. In this paper,
we propose 360 monocular depth estimation methods which improve on the areas
that limited previous studies. First, we introduce a self-supervised 360 depth
learning method that only utilizes gravity-aligned videos, which has the
potential to eliminate the needs for depth data during the training procedure.
Second, we propose a joint learning scheme realized by combining supervised and
self-supervised learning. The weakness of each learning is compensated, thus
leading to more accurate depth estimation. Third, we propose a non-local fusion
block, which retains global information encoded by vision transformer when
reconstructing the depths. With the proposed methods, we successfully apply the
transformer to 360 depth estimations, to the best of our knowledge, which has
not been tried before. On several benchmarks, our approach achieves significant
improvements over previous works and establishes a state of the art.
- Abstract(参考訳): 等方形(360)画像の真理深度を取得するのが難しいため、現在の等方形深度データの品質と量は世界の様々な場面を表現するには不十分である。
したがって、教師付き学習のみに頼った360度深度推定研究は、不満足な結果を生み出すために運命づけられる。
等方形画像(EIs)に焦点をあてた自己教師付き学習手法が導入されたが、誤りや非特異な解がしばしばあり、不安定な性能を引き起こす。
本稿では,従来の研究を限定した領域を改良した360度単眼深度推定法を提案する。
まず,重力対応ビデオのみを利用する自己教師付き360度深度学習手法を提案する。
次に,教師付き学習と自己指導型学習を組み合わせた共同学習手法を提案する。
各学習の弱点は補償され、より正確な深さ推定につながる。
第3に,視覚トランスフォーマによって符号化された大域的な情報を奥行き再構成時に保持する非局所融合ブロックを提案する。
提案手法では,これまでに試されていない知識のすべてに変換器を360度深度推定に適用することに成功した。
いくつかのベンチマークにおいて,本手法は従来よりも大幅に改善され,最先端技術が確立された。
関連論文リスト
- Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - Robust Geometry-Preserving Depth Estimation Using Differentiable
Rendering [93.94371335579321]
我々は、余分なデータやアノテーションを必要とせずに、幾何学保存深度を予測するためにモデルを訓練する学習フレームワークを提案する。
包括的な実験は、我々のフレームワークの優れた一般化能力を強調します。
我々の革新的な損失関数は、ドメイン固有のスケール・アンド・シフト係数を自律的に復元するモデルを可能にします。
論文 参考訳(メタデータ) (2023-09-18T12:36:39Z) - Sparse Depth-Guided Attention for Accurate Depth Completion: A
Stereo-Assisted Monitored Distillation Approach [7.902840502973506]
本研究では,教師モデルとしてステレオモデルを導入し,学生モデルの深度補修精度を向上させる。
自己教師型情報提供には,多視点奥行きの整合性やマルチスケールの最小再計画も活用する。
論文 参考訳(メタデータ) (2023-03-28T09:23:19Z) - 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network [35.03201732370496]
全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
論文 参考訳(メタデータ) (2022-02-16T11:56:31Z) - Depth Refinement for Improved Stereo Reconstruction [13.941756438712382]
立体画像からの深度推定の現在の技術は、なおも内蔵の欠点に悩まされている。
簡単な解析により、深度誤差は物体の距離に2乗比例することが明らかになった。
本研究では,深度推定に改良ネットワークを用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T12:21:08Z) - On the Sins of Image Synthesis Loss for Self-supervised Depth Estimation [60.780823530087446]
画像合成の改善は深度推定の改善を必要としないことを示す。
この発散現象は、データから生じるアレラトリックな不確実性に起因している。
この観察された発散は、以前に報告されたり、深く研究されたりしていない。
論文 参考訳(メタデータ) (2021-09-13T17:57:24Z) - Unsupervised Monocular Depth Perception: Focusing on Moving Objects [5.489557739480878]
本稿では,光度誤差を意図的に操作することで,効率よく困難に対処できることを示す。
まず、光学誤差マップにおいて、隠蔽または動的画素を統計的外れ値として考慮した外れ値マスキング手法を提案する。
外部マスキングにより、ネットワークはカメラと反対方向に移動する物体の深さをより正確に学習する。
論文 参考訳(メタデータ) (2021-08-30T08:45:02Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - Occlusion-aware Unsupervised Learning of Depth from 4-D Light Fields [50.435129905215284]
4次元光場処理と解析のための教師なし学習に基づく深度推定法を提案する。
光場データの特異な幾何学構造に関する基礎知識に基づいて,光場ビューのサブセット間の角度コヒーレンスを探索し,深度マップを推定する。
提案手法は,従来の手法と同等の精度で計算コストを低減した深度マップを作成できる。
論文 参考訳(メタデータ) (2021-06-06T06:19:50Z) - Self-Supervised Human Depth Estimation from Monocular Videos [99.39414134919117]
人間の深度を推定する従来の方法は、しばしば地上の真実の深度データを用いた教師あり訓練を必要とする。
本稿では,YouTubeビデオの奥行きを知ることなく,自己指導型手法を提案する。
実験により,本手法はより一般化され,野生のデータに対してより優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-07T09:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。