論文の概要: 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network
- arxiv url: http://arxiv.org/abs/2202.08010v1
- Date: Wed, 16 Feb 2022 11:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:15:49.853175
- Title: 360 Depth Estimation in the Wild -- The Depth360 Dataset and the SegFuse
Network
- Title(参考訳): 野生における360度深度推定 -Depth360データセットとSegFuseネットワーク-
- Authors: Qi Feng, Hubert P. H. Shum, Shigeo Morishima
- Abstract要約: 全方位画像からの一視点深度推定は、自律運転やシーン再構築といった幅広い応用で人気を博している。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
次に、人間の眼を模倣してデータセットから効果的に学習する、エンドツーエンドのマルチタスク学習ネットワークであるSegFuseを提案する。
- 参考スコア(独自算出の注目度): 35.03201732370496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-view depth estimation from omnidirectional images has gained
popularity with its wide range of applications such as autonomous driving and
scene reconstruction. Although data-driven learning-based methods demonstrate
significant potential in this field, scarce training data and ineffective 360
estimation algorithms are still two key limitations hindering accurate
estimation across diverse domains. In this work, we first establish a
large-scale dataset with varied settings called Depth360 to tackle the training
data problem. This is achieved by exploring the use of a plenteous source of
data, 360 videos from the internet, using a test-time training method that
leverages unique information in each omnidirectional sequence. With novel
geometric and temporal constraints, our method generates consistent and
convincing depth samples to facilitate single-view estimation. We then propose
an end-to-end two-branch multi-task learning network, SegFuse, that mimics the
human eye to effectively learn from the dataset and estimate high-quality depth
maps from diverse monocular RGB images. With a peripheral branch that uses
equirectangular projection for depth estimation and a foveal branch that uses
cubemap projection for semantic segmentation, our method predicts consistent
global depth while maintaining sharp details at local regions. Experimental
results show favorable performance against the state-of-the-art methods.
- Abstract(参考訳): 全方位画像からの単視点深度推定は、自動運転やシーン復元といった幅広い応用で人気を集めている。
データ駆動学習に基づく手法はこの分野で大きな可能性を示しているが、訓練データ不足と非効率な360度推定アルゴリズムはまだ2つの重要な制限であり、様々な領域で正確な推定を妨げている。
本研究ではまず,トレーニングデータ問題に対処するため,Depth360と呼ばれるさまざまな設定の大規模データセットを構築した。
これは、全方向シーケンスに固有の情報を活用するテストタイムトレーニング手法を用いて、インターネットから360度ビデオである複数のデータソースを探索することで達成される。
新たな幾何学的・時間的制約により,一貫した深度サンプルを生成し,一視点推定を容易にする。
次に,人間の眼を模倣してデータセットから効果的に学習し,多彩なrgb画像から高品質な深度マップを推定する,エンドツーエンドのマルチタスク学習ネットワークsegfuseを提案する。
深度推定に等方形プロジェクションを用いる周辺枝と,セマンティックセグメンテーションに立方体図プロジェクションを用いる葉分枝を用いて,局所的に鋭い深度を維持しながら一貫した大域深度を予測した。
実験の結果,最先端手法に対して良好な性能を示した。
関連論文リスト
- Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - Depth Refinement for Improved Stereo Reconstruction [13.941756438712382]
立体画像からの深度推定の現在の技術は、なおも内蔵の欠点に悩まされている。
簡単な解析により、深度誤差は物体の距離に2乗比例することが明らかになった。
本研究では,深度推定に改良ネットワークを用いた簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-12-15T12:21:08Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Learning a Geometric Representation for Data-Efficient Depth Estimation
via Gradient Field and Contrastive Loss [29.798579906253696]
本研究では、コンブネットがラベルのない画像で幾何学的情報を抽出するのを支援するために、運動量差の少ない勾配に基づく自己教師付き学習アルゴリズムを提案する。
提案手法は,従来の自己教師付き学習アルゴリズムよりも優れ,ラベル付きデータの効率を3倍に向上させる。
論文 参考訳(メタデータ) (2020-11-06T06:47:19Z) - DELTAS: Depth Estimation by Learning Triangulation And densification of
Sparse points [14.254472131009653]
多視点ステレオ (MVS) は, 能動深度センシングの精度と単眼深度推定の実用性の間の黄金平均値である。
3次元畳み込みニューラルネットワーク(CNN)を用いたコストボリュームベースのアプローチにより、MVSシステムの精度が大幅に向上した。
まず、(a)興味点の記述子を検出して評価し、次に(b)興味点の小さな集合をマッチングして三角測量し、最後に(c)CNNを用いてこのスパースな3D点の集合を密度化することで、効率的な深さ推定手法を提案する。
論文 参考訳(メタデータ) (2020-03-19T17:56:41Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。