論文の概要: NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2401.03771v2
- Date: Mon, 16 Sep 2024 00:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:17:40.769714
- Title: NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
- Title(参考訳): NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
- Authors: Casimir Feldmann, Niall Siegenheim, Nikolas Hars, Lovro Rabuzin, Mert Ertugrul, Luca Wolfart, Marc Pollefeys, Zuria Bauer, Martin R. Oswald,
- Abstract要約: トレーニングデータセットに、より多様な視方向を持つ合成データを導入するため、NeRFベースのデータ拡張パイプラインを提案する。
我々は、一般的な自動運転データセットであるKITTI上で、最先端の3つのMDEアーキテクチャと組み合わせて、我々の手法を適用した。
- 参考スコア(独自算出の注目度): 44.22677259411607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capabilities of monocular depth estimation (MDE) models are limited by the availability of sufficient and diverse datasets. In the case of MDE models for autonomous driving, this issue is exacerbated by the linearity of the captured data trajectories. We propose a NeRF-based data augmentation pipeline to introduce synthetic data with more diverse viewing directions into training datasets and demonstrate the benefits of our approach to model performance and robustness. Our data augmentation pipeline, which we call \textit{NeRFmentation}, trains NeRFs on each scene in a dataset, filters out subpar NeRFs based on relevant metrics, and uses them to generate synthetic RGB-D images captured from new viewing directions. In this work, we apply our technique in conjunction with three state-of-the-art MDE architectures on the popular autonomous driving dataset, KITTI, augmenting its training set of the Eigen split. We evaluate the resulting performance gain on the original test set, a separate popular driving dataset, and our own synthetic test set.
- Abstract(参考訳): 単眼深度推定(MDE)モデルの能力は、十分かつ多様なデータセットの可用性によって制限される。
自律運転のためのMDEモデルの場合、この問題は捕捉されたデータ軌跡の線形性によって悪化する。
我々はNeRFに基づくデータ拡張パイプラインを提案し、より多様な視方向を持つ合成データをトレーニングデータセットに導入し、パフォーマンスとロバスト性をモデル化するためのアプローチの利点を実証する。
我々のデータ拡張パイプラインは、私たちが「textit{NeRFmentation}」と呼んでいるもので、データセットで各シーンでNeRFをトレーニングし、関連するメトリクスに基づいてサブパーのNeRFをフィルタリングし、新しい視聴方向からキャプチャされた合成RGB-D画像を生成する。
本研究では,一般的な自動運転データセットであるKITTI上で,最先端の3つのMDEアーキテクチャと併用して,Eigenスプリットのトレーニングセットを増強する手法を提案する。
我々は、元のテストセット、人気の駆動データセット、および我々の合成テストセットにおける結果のパフォーマンス向上を評価した。
関連論文リスト
- Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion [20.352548473293993]
顔認識(FR)モデルは、プライバシと倫理的懸念のある大規模データセットでトレーニングされている。
近年,FRモデルのトレーニングのために,合成データを用いて真のデータを補完あるいは置き換えることが提案されている。
ブラウン力を受ける軟質粒子の物理運動にインスパイアされた新しい手法を導入し, 様々な制約の下で潜在空間の正体をサンプリングする。
これを使って、いくつかの顔データセットを生成し、FRモデルをトレーニングすることでそれらをベンチマークし、我々のメソッドで生成されたデータは、以前のGANベースのデータセットのパフォーマンスを超え、現状と競合するパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-04-30T22:32:02Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。
我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。
本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文 参考訳(メタデータ) (2023-09-17T12:26:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Quantifying Overfitting: Introducing the Overfitting Index [0.0]
オーバーフィッティング(overfitting)とは、トレーニングデータでは優れたパフォーマンスを示すが、目に見えないデータではフェールである。
本稿では、モデルが過度に適合する傾向を定量的に評価するために考案された新しい指標であるOverfitting Index(OI)を紹介する。
我々の結果は、アーキテクチャ全体にわたる変数過度な振る舞いを強調し、データ拡張による緩和的な影響を強調します。
論文 参考訳(メタデータ) (2023-08-16T21:32:57Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Multimodal Remote Sensing Benchmark Datasets for Land Cover
Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。
マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文 参考訳(メタデータ) (2021-05-21T08:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。