論文の概要: NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2401.03771v1
- Date: Mon, 8 Jan 2024 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 17:14:15.944284
- Title: NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
- Title(参考訳): nerfmentation:単眼深度推定のためのnerfベース拡張法
- Authors: Casimir Feldmann, Niall Siegenheim, Nikolas Hars, Lovro Rabuzin, Mert
Ertugrul, Luca Wolfart, Marc Pollefeys, Zuria Bauer, Martin R. Oswald
- Abstract要約: トレーニングデータセットに、より多様な視方向を持つ合成データを導入するため、NeRFベースのデータ拡張パイプラインを提案する。
我々は、一般的な自動運転データセットであるKITTI上で、最先端の3つのMDEアーキテクチャと組み合わせて、我々の手法を適用した。
- 参考スコア(独自算出の注目度): 45.88995941857111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The capabilities of monocular depth estimation (MDE) models are limited by
the availability of sufficient and diverse datasets. In the case of MDE models
for autonomous driving, this issue is exacerbated by the linearity of the
captured data trajectories. We propose a NeRF-based data augmentation pipeline
to introduce synthetic data with more diverse viewing directions into training
datasets and demonstrate the benefits of our approach to model performance and
robustness. Our data augmentation pipeline, which we call "NeRFmentation",
trains NeRFs on each scene in the dataset, filters out subpar NeRFs based on
relevant metrics, and uses them to generate synthetic RGB-D images captured
from new viewing directions. In this work, we apply our technique in
conjunction with three state-of-the-art MDE architectures on the popular
autonomous driving dataset KITTI, augmenting its training set of the Eigen
split. We evaluate the resulting performance gain on the original test set, a
separate popular driving set, and our own synthetic test set.
- Abstract(参考訳): 単眼深度推定(MDE)モデルの能力は、十分かつ多様なデータセットの可用性によって制限される。
自動運転のためのMDEモデルの場合、この問題は捕捉されたデータ軌跡の線形性によって悪化する。
トレーニングデータセットに,より多様な視方向を持つ合成データを導入するための,nerfベースのデータ拡張パイプラインを提案し,モデル性能とロバスト性に対するアプローチの利点を実証する。
私たちが“NeRFmentation”と呼ぶデータ拡張パイプラインは、データセットの各シーンでNeRFをトレーニングし、関連するメトリクスに基づいてサブパーのNeRFをフィルタリングし、新しい視聴方向からキャプチャされた合成RGB-D画像を生成する。
本研究では,一般的な自動運転データセットKITTI上で,最先端の3つのMDEアーキテクチャと併用して,Eigenスプリットのトレーニングセットを拡大する手法を提案する。
本研究は, 原テストセット, 人気駆動セット, および, 自作の合成テストセットにおいて, 結果の性能向上を評価するものである。
関連論文リスト
- Explicit-NeRF-QA: A Quality Assessment Database for Explicit NeRF Model Compression [10.469092315640696]
我々は、NeRF圧縮研究の課題に対処するため、Explicit-NeRF-QAと呼ばれる新しいデータセットを構築した。
4つの典型的なNeRFモデルをトレーニングするために,22個の3Dオブジェクトを多様なジオメトリ,テクスチャ,材料複雑度で使用しています。
実験室環境における主観的な実験を行い、21人の視聴者から主観的なスコアを収集する。
論文 参考訳(メタデータ) (2024-07-11T04:02:05Z) - Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion [20.352548473293993]
顔認識(FR)モデルは、プライバシと倫理的懸念のある大規模データセットでトレーニングされている。
近年,FRモデルのトレーニングのために,合成データを用いて真のデータを補完あるいは置き換えることが提案されている。
ブラウン力を受ける軟質粒子の物理運動にインスパイアされた新しい手法を導入し, 様々な制約の下で潜在空間の正体をサンプリングする。
これを使って、いくつかの顔データセットを生成し、FRモデルをトレーニングすることでそれらをベンチマークし、我々のメソッドで生成されたデータは、以前のGANベースのデータセットのパフォーマンスを超え、現状と競合するパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-04-30T22:32:02Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。
実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文 参考訳(メタデータ) (2023-10-15T04:24:42Z) - LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。
我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。
本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文 参考訳(メタデータ) (2023-09-17T12:26:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Quantifying Overfitting: Introducing the Overfitting Index [0.0]
オーバーフィッティング(overfitting)とは、トレーニングデータでは優れたパフォーマンスを示すが、目に見えないデータではフェールである。
本稿では、モデルが過度に適合する傾向を定量的に評価するために考案された新しい指標であるOverfitting Index(OI)を紹介する。
我々の結果は、アーキテクチャ全体にわたる変数過度な振る舞いを強調し、データ拡張による緩和的な影響を強調します。
論文 参考訳(メタデータ) (2023-08-16T21:32:57Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。