論文の概要: G2-MonoDepth: A General Framework of Generalized Depth Inference from
Monocular RGB+X Data
- arxiv url: http://arxiv.org/abs/2310.15422v1
- Date: Tue, 24 Oct 2023 00:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 21:10:48.209803
- Title: G2-MonoDepth: A General Framework of Generalized Depth Inference from
Monocular RGB+X Data
- Title(参考訳): G2-MonoDepth:単分子RGB+Xデータからの一般化深度推論の一般的なフレームワーク
- Authors: Haotian Wang, Meng Yang, and Nanning Zheng
- Abstract要約: 単眼深度推定はロボットのシーン認識の基本的な問題である。
G2-MonoDepthは3つのサブタスクに適用される。
実世界のデータと合成データの両方で、SOTAのベースラインを常に上回る。
- 参考スコア(独自算出の注目度): 36.24020602917672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth inference is a fundamental problem for scene perception of
robots. Specific robots may be equipped with a camera plus an optional depth
sensor of any type and located in various scenes of different scales, whereas
recent advances derived multiple individual sub-tasks. It leads to additional
burdens to fine-tune models for specific robots and thereby high-cost
customization in large-scale industrialization. This paper investigates a
unified task of monocular depth inference, which infers high-quality depth maps
from all kinds of input raw data from various robots in unseen scenes. A basic
benchmark G2-MonoDepth is developed for this task, which comprises four
components: (a) a unified data representation RGB+X to accommodate RGB plus raw
depth with diverse scene scale/semantics, depth sparsity ([0%, 100%]) and
errors (holes/noises/blurs), (b) a novel unified loss to adapt to diverse depth
sparsity/errors of input raw data and diverse scales of output scenes, (c) an
improved network to well propagate diverse scene scales from input to output,
and (d) a data augmentation pipeline to simulate all types of real artifacts in
raw depth maps for training. G2-MonoDepth is applied in three sub-tasks
including depth estimation, depth completion with different sparsity, and depth
enhancement in unseen scenes, and it always outperforms SOTA baselines on both
real-world data and synthetic data.
- Abstract(参考訳): 単眼深度推定はロボットのシーン認識の基本的な問題である。
特定のロボットにはカメラと任意のタイプの奥行きセンサーが装備され、様々なスケールの様々なシーンに配置できるが、近年の進歩は複数のサブタスクを派生させた。
これにより、特定のロボットの微調整モデルにさらなる負担がかかり、大規模な工業化において高コストでカスタマイズできる。
本稿では,様々なロボットから入力されたあらゆるデータから高品質な深度マップを推定する単眼深度推定の統一課題について検討する。
基本的なベンチマーク G2-MonoDepth はこのタスクのために開発されている。
(a)rgbプラス多様なシーンスケール/セマンティクス、深さスパーシティ([0%, 100%])、エラー(ホール/ノイズ/ブラル)の生深度に対応する統一データ表現rgb+x。
(b)入力生データの深度・深度・誤り及び出力シーンの多様さに対応するための新たな統一的損失
(c)多様なシーンスケールを入力から出力へよく伝達する改良されたネットワーク、及び
(d) トレーニング用の生深度マップで実際のすべての種類のアーティファクトをシミュレートするデータ拡張パイプライン。
G2-MonoDepthは、深度推定、鮮度の違いによる深度補完、見えないシーンでの深度向上を含む3つのサブタスクに適用され、現実世界のデータと合成データの両方でSOTAベースラインを常に上回る。
関連論文リスト
- Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - SM4Depth: Seamless Monocular Metric Depth Estimation across Multiple Cameras and Scenes by One Model [72.0795843450604]
現在のアプローチでは、さまざまなシーンで一貫した精度を維持する上で、課題に直面している。
これらの手法は、何千万、あるいは数千万のデータからなる広範囲なデータセットに依存している。
本稿では室内と屋外の両方でシームレスに機能するSM$4$Depthについて述べる。
論文 参考訳(メタデータ) (2024-03-13T14:08:25Z) - High-Resolution Synthetic RGB-D Datasets for Monocular Depth Estimation [3.349875948009985]
我々は、GTA-V(Grand Theft Auto)から1920×1080の高解像度合成深度データセット(HRSD)を生成する。
実験と解析のために,提案した合成データセットに基づいて,最先端の変換器に基づくMDEアルゴリズムであるDPTアルゴリズムを訓練し,異なるシーンにおける深度マップの精度を9%向上させる。
論文 参考訳(メタデータ) (2023-05-02T19:03:08Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Unsupervised Single-shot Depth Estimation using Perceptual
Reconstruction [0.0]
この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。
RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。
本研究で得られた成果は、実世界のアプリケーションにおいて、教師なし単発深度推定の大きな可能性を示している。
論文 参考訳(メタデータ) (2022-01-28T15:11:34Z) - Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein
GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。
本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文 参考訳(メタデータ) (2021-03-31T09:43:38Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - 3D Dense Geometry-Guided Facial Expression Synthesis by Adversarial
Learning [54.24887282693925]
本稿では,3次元密度(深度,表面正規度)情報を表現操作に用いる新しいフレームワークを提案する。
既製の最先端3D再構成モデルを用いて深度を推定し,大規模RGB-Depthデータセットを作成する。
実験により,提案手法は競争ベースラインと既存の芸術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-09-30T17:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。