論文の概要: Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical Representations
- arxiv url: http://arxiv.org/abs/2405.16858v1
- Date: Mon, 27 May 2024 06:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:50:47.287057
- Title: Estimating Depth of Monocular Panoramic Image with Teacher-Student Model Fusing Equirectangular and Spherical Representations
- Title(参考訳): 等角および球面表現を用いた教師学習モデルを用いた単眼パノラマ画像の深さ推定
- Authors: Jingguo Liu, Yijun Xu, Shigang Li, Jianfeng Li,
- Abstract要約: 本研究では, 単眼パノラマ画像の深度を, 正方形および球形表現を融合した教師学生モデルを用いて推定する手法を提案する。
実験では、よく知られた360度単分子深度推定ベンチマークを用いて、提案手法を検証した。
- 参考スコア(独自算出の注目度): 3.8240176158734194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disconnectivity and distortion are the two problems which must be coped with when processing 360 degrees equirectangular images. In this paper, we propose a method of estimating the depth of monocular panoramic image with a teacher-student model fusing equirectangular and spherical representations. In contrast with the existing methods fusing an equirectangular representation with a cube map representation or tangent representation, a spherical representation is a better choice because a sampling on a sphere is more uniform and can also cope with distortion more effectively. In this processing, a novel spherical convolution kernel computing with sampling points on a sphere is developed to extract features from the spherical representation, and then, a Segmentation Feature Fusion(SFF) methodology is utilized to combine the features with ones extracted from the equirectangular representation. In contrast with the existing methods using a teacher-student model to obtain a lighter model of depth estimation, we use a teacher-student model to learn the latent features of depth images. This results in a trained model which estimates the depth map of an equirectangular image using not only the feature maps extracted from an input equirectangular image but also the distilled knowledge learnt from the ground truth of depth map of a training set. In experiments, the proposed method is tested on several well-known 360 monocular depth estimation benchmark datasets, and outperforms the existing methods for the most evaluation indexes.
- Abstract(参考訳): 接続性と歪みは、360度等角画像を処理する際に対処しなければならない2つの問題である。
本論文では, 単眼パノラマ画像の深さを, 正方形および球形表現を融合した教師学生モデルを用いて推定する手法を提案する。
正方形表現を立方体写像表現や接表現と融合させる既存の方法とは対照的に、球面上のサンプリングはより均一であり、歪みにもより効果的に対処できるため、球面表現の方がよい選択である。
この処理では、球面上のサンプリング点を持つ新しい球面畳み込みカーネル計算を開発し、球面表現から特徴を抽出し、その特徴と正方形表現から抽出した特徴とを合成するためにセグメンテーション・フィーチャー・フュージョン(SFF)手法を用いる。
教師-学生モデルを用いて深度推定の軽量化を行う既存の手法とは対照的に,教師-学生モデルを用いて深度画像の潜時的特徴を学習する。
これにより、入力正方形画像から抽出した特徴写像だけでなく、トレーニングセットの深度マップの基底真理から学習した蒸留知識を用いて、等方形画像の深度マップを推定する訓練モデルが得られる。
実験では, 提案手法をよく知られた360度単眼深度推定ベンチマークデータセットで検証し, 評価指標として既存手法より優れていた。
関連論文リスト
- Diff-DOPE: Differentiable Deep Object Pose Estimation [29.703385848843414]
Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。
この方法は、画像とモデルの投影の間の視覚的エラーを最小限に抑えるために、オブジェクトのポーズを更新するために微分可能なレンダリングを使用する。
このシンプルで効果的なアイデアは、ポーズ推定データセットで最先端の結果を得ることができることを示す。
論文 参考訳(メタデータ) (2023-09-30T18:52:57Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Multi-View Reconstruction using Signed Ray Distance Functions (SRDF) [22.75986869918975]
本稿では,体積の新たな形状表現に基づく新しい計算手法について検討する。
この表現に関連する形状エネルギーは、与えられたカラー画像の3次元形状を評価し、外観予測を必要としない。
実際には、カメラ線に沿った深さによってパラメータ化される符号付き距離に基づいて、暗黙の形状表現であるSRDFを提案する。
論文 参考訳(メタデータ) (2022-08-31T19:32:17Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Dense Depth Estimation from Multiple 360-degree Images Using Virtual
Depth [4.984601297028257]
提案したパイプラインは、360度画像の半径歪みを補償する球面カメラモデルを活用する。
仮想深度の設定とフォトニック再射誤差の最小化による効果的な深度推定法を提案する。
実験により,提案したパイプラインは,現在最先端の深度推定法と比較して推定精度が向上することを確認した。
論文 参考訳(メタデータ) (2021-12-30T05:27:28Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。
この手法の核心は,対象物の幾何学的足場の推定である。
合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2021-02-17T16:40:28Z) - Depth Completion using Piecewise Planar Model [94.0808155168311]
深度マップは一連の学習された基底で表現することができ、閉じた解法で効率的に解ける。
しかし、この方法の1つの問題は、色境界が深さ境界と矛盾する場合にアーチファクトを生成することである。
私たちは、より厳密な深度回復モデルを実行します。
論文 参考訳(メタデータ) (2020-12-06T07:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。