論文の概要: D4D: An RGBD diffusion model to boost monocular depth estimation
- arxiv url: http://arxiv.org/abs/2403.07516v1
- Date: Tue, 12 Mar 2024 10:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:51:40.318613
- Title: D4D: An RGBD diffusion model to boost monocular depth estimation
- Title(参考訳): d4d:単眼深度推定のためのrgbd拡散モデル
- Authors: L. Papa, P. Russo, and I. Amerini
- Abstract要約: 地上のRGBDデータは、幅広いコンピュータビジョンアプリケーションに基礎を置いている。
本研究では,リアルなRGBDサンプルを生成することができる4チャネル拡散モデルであるDiffusion4D(D4D)を取り入れた新しいトレーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ground-truth RGBD data are fundamental for a wide range of computer vision
applications; however, those labeled samples are difficult to collect and
time-consuming to produce. A common solution to overcome this lack of data is
to employ graphic engines to produce synthetic proxies; however, those data do
not often reflect real-world images, resulting in poor performance of the
trained models at the inference step. In this paper we propose a novel training
pipeline that incorporates Diffusion4D (D4D), a customized 4-channels diffusion
model able to generate realistic RGBD samples. We show the effectiveness of the
developed solution in improving the performances of deep learning models on the
monocular depth estimation task, where the correspondence between RGB and depth
map is crucial to achieving accurate measurements. Our supervised training
pipeline, enriched by the generated samples, outperforms synthetic and original
data performances achieving an RMSE reduction of (8.2%, 11.9%) and (8.1%, 6.1%)
respectively on the indoor NYU Depth v2 and the outdoor KITTI dataset.
- Abstract(参考訳): 地上のrgbdデータは、広い範囲のコンピュータビジョンアプリケーションにとって基本であるが、ラベル付きサンプルは収集が難しく、製造に時間がかかる。
このデータ不足を克服するための一般的な解決策は、グラフィックエンジンを使用して合成プロキシを生成することであるが、これらのデータは実世界のイメージを反映しないことが多く、推論ステップにおけるトレーニングされたモデルの性能が低下する。
本稿では,リアルなRGBDサンプルを生成可能な4チャネル拡散モデルであるDiffusion4D(D4D)を組み込んだ新しいトレーニングパイプラインを提案する。
本稿では,rgbと深度マップの対応が正確な測定に不可欠である単眼深度推定タスクにおいて,深層学習モデルの性能を向上させるために開発した解の有効性を示す。
本研究は, 室内NYU深度v2および屋外KITTIデータセットにおいて, RMSEの8.2%, 11.9%) と8.1% (6.1%) の削減を実現し, 合成および原データ性能を向上した。
関連論文リスト
- Syn2Real Domain Generalization for Underwater Mine-like Object Detection Using Side-Scan Sonar [1.7851018240619703]
本稿では,拡散モデルを用いたSyn2Real(Synthetic to Real)領域一般化手法を提案する。
DDPMモデルとDDIMモデルによるノイズによって生成された合成データは、完全に現実的でないとしても、トレーニングのための実世界のサンプルを効果的に増強できることを実証する。
論文 参考訳(メタデータ) (2024-10-16T18:42:08Z) - Learning from the Giants: A Practical Approach to Underwater Depth and Surface Normals Estimation [3.0516727053033392]
本稿では,単眼深度と表面正規化推定(MDSNE)のための新しいディープラーニングモデルを提案する。
これは特に、CNNとTransformerを統合するハイブリッドアーキテクチャを使用して、水中環境向けに調整されている。
我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。
論文 参考訳(メタデータ) (2024-10-02T22:41:12Z) - Domain-Transferred Synthetic Data Generation for Improving Monocular Depth Estimation [9.812476193015488]
本稿では,3次元合成環境とCycleGANドメイン転送を用いたシミュレーションデータ生成手法を提案する。
本研究では,DenseDepth構造に基づく深度推定モデルを実データと模擬データの異なるトレーニングセットを用いて学習することにより,このデータ生成手法を,人気のNYUDepth V2データセットと比較する。
本稿では,Huskyロボットによる新たに収集した画像とLiDAR深度データを用いたモデルの性能評価を行い,GAN変換データを実世界のデータ,特に深度推定の有効な代替手段として有効であることを示す。
論文 参考訳(メタデータ) (2024-05-02T09:21:10Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation [88.8963330073454]
自己教師付き学習による新しい単眼6次元ポーズ推定手法を提案する。
ノイズの多い学生のトレーニングと差別化可能なレンダリングの現在の傾向を活用して、モデルをさらに自己監督する。
提案する自己超越法は,合成データに依存する他の方法よりも優れている。
論文 参考訳(メタデータ) (2022-03-19T15:12:06Z) - Unpaired Single-Image Depth Synthesis with cycle-consistent Wasserstein
GANs [1.0499611180329802]
実環境深度のリアルタイム推定は、様々な自律システムタスクにとって必須のモジュールである。
本研究では、生成型ニューラルネットワークの分野における最近の進歩を、教師なしの単一画像深度合成に活用する。
論文 参考訳(メタデータ) (2021-03-31T09:43:38Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - RGB-D Salient Object Detection: A Survey [195.83586883670358]
様々な観点からRGB-Dに基づくSODモデルを総合的に調査する。
また、このドメインからSODモデルと人気のあるベンチマークデータセットもレビューします。
今後の研究に向けたRGB-DベースのSODの課題と方向性について論じる。
論文 参考訳(メタデータ) (2020-08-01T10:01:32Z) - Self6D: Self-Supervised Monocular 6D Object Pose Estimation [114.18496727590481]
自己教師付き学習による単眼6次元ポーズ推定のアイデアを提案する。
ニューラルレンダリングの最近の進歩を活用して、注釈のない実RGB-Dデータのモデルをさらに自己監督する。
論文 参考訳(メタデータ) (2020-04-14T13:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。