Fugu-MT 論文翻訳(概要): MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

論文の概要: MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

arxiv url: http://arxiv.org/abs/2412.14166v1
Date: Wed, 18 Dec 2024 18:59:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.376579
Title: MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data
Title（参考訳）: MegaSynth: 合成データによる3Dシーン再構築のスケールアップ
Authors: Hanwen Jiang, Zexiang Xu, Desai Xie, Ziwen Chen, Haian Jin, Fujun Luan, Zhixin Shu, Kai Zhang, Sai Bi, Xin Sun, Jiuxiang Gu, Qixing Huang, Georgios Pavlakos, Hao Tan,
Abstract要約: 合成データを用いたトレーニングにより3次元シーン再構成のスケールアップを提案する。私たちの研究の中心は、700Kシーンからなる手続き的に生成された3DデータセットであるMega Synthです。実験の結果,Mega Synthとの共同トレーニングや事前トレーニングにより,画像領域間で1.2～1.8dBPSNRの再現性が改善された。
参考スコア（独自算出の注目度）: 59.88075377088134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose scaling up 3D scene reconstruction by training with synthesized data. At the core of our work is MegaSynth, a procedurally generated 3D dataset comprising 700K scenes - over 50 times larger than the prior real dataset DL3DV - dramatically scaling the training data. To enable scalable data generation, our key idea is eliminating semantic information, removing the need to model complex semantic priors such as object affordances and scene composition. Instead, we model scenes with basic spatial structures and geometry primitives, offering scalability. Besides, we control data complexity to facilitate training while loosely aligning it with real-world data distribution to benefit real-world generalization. We explore training LRMs with both MegaSynth and available real data. Experiment results show that joint training or pre-training with MegaSynth improves reconstruction quality by 1.2 to 1.8 dB PSNR across diverse image domains. Moreover, models trained solely on MegaSynth perform comparably to those trained on real data, underscoring the low-level nature of 3D reconstruction. Additionally, we provide an in-depth analysis of MegaSynth's properties for enhancing model capability, training stability, and generalization.
Abstract（参考訳）: 合成データを用いたトレーニングにより3次元シーン再構成のスケールアップを提案する。 MegaSynthは、700Kシーンからなる手続き的に生成された3Dデータセットで、以前のリアルデータセットDL3DVの50倍以上の大きさで、トレーニングデータを劇的にスケールします。スケーラブルなデータ生成を実現するためには、セマンティックな情報を排除し、オブジェクトの空き時間やシーン構成といった複雑なセマンティックな前提をモデル化する必要がなくなる。代わりに、基本的な空間構造と幾何学的プリミティブでシーンをモデル化し、拡張性を提供します。さらに、実世界の一般化のために、実世界のデータ分布とゆるやかに整列しながら、トレーニングを容易にするために、データの複雑さを制御します。我々は,MegaSynthと利用可能な実データを用いて,LEMのトレーニングを行う。実験の結果,MegaSynthとの共同トレーニングやプレトレーニングにより,画像領域間で1.2～1.8dBPSNRの再現性が改善された。さらに、MegaSynthのみにトレーニングされたモデルは、実際のデータに基づいてトレーニングされたモデルと同等に動作し、3D再構成の低レベルな性質を裏付ける。さらに,モデル能力の向上,訓練安定性の向上,一般化のためのMegaSynthの特性の詳細な解析を行う。

関連論文リスト

DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving [27.088907562842902]
自律運転では、3Dセマンティックセグメンテーションが安全なナビゲーションを可能にする重要な役割を果たす。 3Dデータの収集と注釈付けの複雑さは、この開発のボトルネックである。本稿では,3次元のセマンティック・シーン・スケールのデータを投影モデルやデカップリングモデルに頼らずに生成する手法を提案する。
論文参考訳（メタデータ） (2025-03-27T12:41:42Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。 MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文参考訳（メタデータ） (2024-06-17T17:55:55Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
AutoSynth: Learning to Generate 3D Training Data for Object Point Cloud Registration [69.21282992341007]
Auto Synthは、ポイントクラウド登録のための3Dトレーニングデータを自動的に生成する。私たちはポイントクラウド登録ネットワークをもっと小さなサロゲートネットワークに置き換え、4056.43$のスピードアップを実現しました。 TUD-L,LINEMOD,Occluded-LINEMODに関する我々の研究結果は,検索データセットでトレーニングされたニューラルネットワークが,広く使用されているModelNet40データセットでトレーニングされたニューラルネットワークよりも一貫してパフォーマンスが向上していることを示す。
論文参考訳（メタデータ） (2023-09-20T09:29:44Z)
Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文参考訳（メタデータ） (2023-05-25T14:56:03Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文参考訳（メタデータ） (2022-05-14T13:15:32Z)
UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文参考訳（メタデータ） (2021-10-28T16:24:55Z)
Synthetic Data and Hierarchical Object Detection in Overhead Imagery [0.0]
衛星画像における低・ゼロサンプル学習を向上させるための新しい合成データ生成および拡張技術を開発した。合成画像の有効性を検証するために,検出モデルと2段階モデルの訓練を行い,実際の衛星画像上で得られたモデルを評価する。
論文参考訳（メタデータ） (2021-01-29T22:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。