Fugu-MT 論文翻訳(概要): NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation

論文の概要: NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation

arxiv url: http://arxiv.org/abs/2401.03771v1
Date: Mon, 8 Jan 2024 09:50:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 17:14:15.944284
Title: NeRFmentation: NeRF-based Augmentation for Monocular Depth Estimation
Title（参考訳）: nerfmentation:単眼深度推定のためのnerfベース拡張法
Authors: Casimir Feldmann, Niall Siegenheim, Nikolas Hars, Lovro Rabuzin, Mert Ertugrul, Luca Wolfart, Marc Pollefeys, Zuria Bauer, Martin R. Oswald
Abstract要約: トレーニングデータセットに、より多様な視方向を持つ合成データを導入するため、NeRFベースのデータ拡張パイプラインを提案する。我々は、一般的な自動運転データセットであるKITTI上で、最先端の3つのMDEアーキテクチャと組み合わせて、我々の手法を適用した。
参考スコア（独自算出の注目度）: 45.88995941857111
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The capabilities of monocular depth estimation (MDE) models are limited by the availability of sufficient and diverse datasets. In the case of MDE models for autonomous driving, this issue is exacerbated by the linearity of the captured data trajectories. We propose a NeRF-based data augmentation pipeline to introduce synthetic data with more diverse viewing directions into training datasets and demonstrate the benefits of our approach to model performance and robustness. Our data augmentation pipeline, which we call "NeRFmentation", trains NeRFs on each scene in the dataset, filters out subpar NeRFs based on relevant metrics, and uses them to generate synthetic RGB-D images captured from new viewing directions. In this work, we apply our technique in conjunction with three state-of-the-art MDE architectures on the popular autonomous driving dataset KITTI, augmenting its training set of the Eigen split. We evaluate the resulting performance gain on the original test set, a separate popular driving set, and our own synthetic test set.
Abstract（参考訳）: 単眼深度推定(MDE)モデルの能力は、十分かつ多様なデータセットの可用性によって制限される。自動運転のためのMDEモデルの場合、この問題は捕捉されたデータ軌跡の線形性によって悪化する。トレーニングデータセットに,より多様な視方向を持つ合成データを導入するための,nerfベースのデータ拡張パイプラインを提案し,モデル性能とロバスト性に対するアプローチの利点を実証する。私たちが“NeRFmentation”と呼ぶデータ拡張パイプラインは、データセットの各シーンでNeRFをトレーニングし、関連するメトリクスに基づいてサブパーのNeRFをフィルタリングし、新しい視聴方向からキャプチャされた合成RGB-D画像を生成する。本研究では,一般的な自動運転データセットKITTI上で,最先端の3つのMDEアーキテクチャと併用して,Eigenスプリットのトレーニングセットを拡大する手法を提案する。本研究は, 原テストセット, 人気駆動セット, および, 自作の合成テストセットにおいて, 結果の性能向上を評価するものである。

関連論文リスト

Visual Autoregressive Modelling for Monocular Depth Estimation [69.01449528371916]
本稿では,視覚的自己回帰(VAR)に基づく単眼深度推定手法を提案する。提案手法は,大規模テキスト・画像VARモデルに適応し,スケールワイド・コンディショナル・アップサンプリング機構を導入する。本研究では,屋内ベンチマークにおける制約付きトレーニング条件下での最先端性能と,屋外データセットに適用した場合の強い性能について報告する。
論文参考訳（メタデータ） (2025-12-27T17:08:03Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
Point Cloud Segmentation of Agricultural Vehicles using 3D Gaussian Splatting [12.323236593352698]
この研究は、現実的な合成データを生成するための新しいパイプラインを導入することを目的としている。我々はジェネリックモデルではなく、複数の農業車両の3D資産を生成する。我々は、合成データのみをトレーニングし、検証することにより、PointNet++、Point Transformer V3、OACNNなどのセグメンテーションモデルに対する合成データの影響を評価する。
論文参考訳（メタデータ） (2025-06-05T13:19:27Z)
Taming Diffusion for Dataset Distillation with High Representativeness [49.3818035378669]
D3HRは、高い代表性を持つ蒸留データセットを生成する新しい拡散ベースのフレームワークである。我々の実験は、D3HRが異なるモデルアーキテクチャにわたって高い精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-05-23T22:05:59Z)
Synthetic Face Datasets Generation via Latent Space Exploration from Brownian Identity Diffusion [20.352548473293993]
顔認識(FR)モデルは、プライバシと倫理的懸念のある大規模データセットでトレーニングされている。近年,FRモデルのトレーニングのために,合成データを用いて真のデータを補完あるいは置き換えることが提案されている。ブラウン力を受ける軟質粒子の物理運動にインスパイアされた新しい手法を導入し, 様々な制約の下で潜在空間の正体をサンプリングする。これを使って、いくつかの顔データセットを生成し、FRモデルをトレーニングすることでそれらをベンチマークし、我々のメソッドで生成されたデータは、以前のGANベースのデータセットのパフォーマンスを超え、現状と競合するパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2024-04-30T22:32:02Z)
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文参考訳（メタデータ） (2024-04-04T17:58:02Z)
Private Synthetic Data Meets Ensemble Learning [15.425653946755025]
機械学習モデルが合成データに基づいてトレーニングされ、実際のデータにデプロイされると、しばしばパフォーマンス低下が発生する。実データを用いた場合のパフォーマンス向上を目標として,下流モデルのトレーニングのための新たなアンサンブル戦略を導入する。
論文参考訳（メタデータ） (2023-10-15T04:24:42Z)
LiDAR Data Synthesis with Denoising Diffusion Probabilistic Models [1.1965844936801797]
3D LiDARデータの生成モデリングは、自律移動ロボットに有望な応用をもたらす新たな課題である。我々は,多種多様かつ高忠実な3Dシーンポイント雲を生成可能な,LiDARデータのための新しい生成モデルR2DMを提案する。本手法は拡散確率モデル (DDPM) を用いて構築され, 生成モデルフレームワークにおいて顕著な結果が得られた。
論文参考訳（メタデータ） (2023-09-17T12:26:57Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Quantifying Overfitting: Introducing the Overfitting Index [0.0]
オーバーフィッティング(overfitting)とは、トレーニングデータでは優れたパフォーマンスを示すが、目に見えないデータではフェールである。本稿では、モデルが過度に適合する傾向を定量的に評価するために考案された新しい指標であるOverfitting Index(OI)を紹介する。我々の結果は、アーキテクチャ全体にわたる変数過度な振る舞いを強調し、データ拡張による緩和的な影響を強調します。
論文参考訳（メタデータ） (2023-08-16T21:32:57Z)
MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文参考訳（メタデータ） (2023-03-23T17:59:02Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Mixed Effects Neural ODE: A Variational Approximation for Analyzing the Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文参考訳（メタデータ） (2022-02-18T22:41:51Z)
Multimodal Remote Sensing Benchmark Datasets for Land Cover Classification with A Shared and Specific Feature Learning Model [36.993630058695345]
マルチモーダルRSデータをモダリティ共有およびモダリティ固有成分に分解するための共有特徴学習(S2FL)モデルを提案する。マルチモーダルベースラインと新たに提案されたS2FLモデルを評価するために、3つのマルチモーダルRSベンチマークデータセット、すなわちHouston2013 -- hyperspectral and multispectral data, Berlin -- hyperspectral and synthetic Aperture radar (SAR) data, Augsburg -- hyperspectral, SAR, digital surface model (DSM) dataがリリースされ、土地被覆分類に使用される。
論文参考訳（メタデータ） (2021-05-21T08:14:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。