論文の概要: LRM-Zero: Training Large Reconstruction Models with Synthesized Data
- arxiv url: http://arxiv.org/abs/2406.09371v1
- Date: Thu, 13 Jun 2024 17:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:15:58.962773
- Title: LRM-Zero: Training Large Reconstruction Models with Synthesized Data
- Title(参考訳): LRM-Zero: 合成データによる大規模復元モデルの訓練
- Authors: Desai Xie, Sai Bi, Zhixin Shu, Kai Zhang, Zexiang Xu, Yi Zhou, Sören Pirk, Arie Kaufman, Xin Sun, Hao Tan,
- Abstract要約: LRM-Zeroは完全に3Dビュー上に表示し、高品質でインタラクティブな3Dオブジェクトの可視化を実現する。
ゼロクオリティの高いフィールドで利用できる3D再構成とは異なり、LRM-Zero再構成はゼロクオリティの高さで利用できる。
我々は、実際の重要な設計選択と競争訓練に寄与するLRM-Zeroのいくつかの重要な設計選択を分析する。
- 参考スコア(独自算出の注目度): 35.732919658869754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LRM-Zero, a Large Reconstruction Model (LRM) trained entirely on synthesized 3D data, achieving high-quality sparse-view 3D reconstruction. The core of LRM-Zero is our procedural 3D dataset, Zeroverse, which is automatically synthesized from simple primitive shapes with random texturing and augmentations (e.g., height fields, boolean differences, and wireframes). Unlike previous 3D datasets (e.g., Objaverse) which are often captured or crafted by humans to approximate real 3D data, Zeroverse completely ignores realistic global semantics but is rich in complex geometric and texture details that are locally similar to or even more intricate than real objects. We demonstrate that our LRM-Zero, trained with our fully synthesized Zeroverse, can achieve high visual quality in the reconstruction of real-world objects, competitive with models trained on Objaverse. We also analyze several critical design choices of Zeroverse that contribute to LRM-Zero's capability and training stability. Our work demonstrates that 3D reconstruction, one of the core tasks in 3D vision, can potentially be addressed without the semantics of real-world objects. The Zeroverse's procedural synthesis code and interactive visualization are available at: https://desaixie.github.io/lrm-zero/.
- Abstract(参考訳): 本稿では,LRM-Zeroについて述べる。LRM-Zeroは,合成した3Dデータに基づいて学習し,高品質なスパースビュー3D再構成を実現する。
LRM-Zeroのコアは手続き的な3DデータセットであるZeroverseで、ランダムなテクスチャと拡張(例えば、高さのフィールド、ブール差、ワイヤフレームなど)で単純なプリミティブな形状から自動的に合成されます。
従来の3Dデータセット(例:Objaverse)とは異なり、Zeroverseはリアルなグローバルなセマンティクスを完全に無視するが、局所的に実際のオブジェクトと似ているか、より複雑である複雑な幾何学的・テクスチャ的詳細に富んでいる。
我々は、完全に合成されたZeroverseでトレーニングしたLRM-Zeroが、Objaverseでトレーニングしたモデルと競合する現実世界のオブジェクトの再構築において、高い視覚的品質を実現することを実証した。
また、LRM-Zeroの能力と訓練安定性に寄与するZeroverseのいくつかの重要な設計選択についても分析する。
我々の研究は、3Dビジョンの中核となるタスクである3D再構成が、現実世界のオブジェクトの意味論なしで対処できることを実証している。
Zeroverseの手続き的な合成コードとインタラクティブな視覚化は、https://desaixie.github.io/lrm-zero/.com/で公開されている。
関連論文リスト
- VI3DRM:Towards meticulous 3D Reconstruction from Sparse Views via Photo-Realistic Novel View Synthesis [22.493542492218303]
視覚的等方性3D再構成モデル (VI3DRM) は、一貫した立体空間内で動作するスパースビュー3D再構成モデルである。
セマンティック情報、色、材料特性、照明の切り離しを容易にすることで、VI3DRMは極めてリアルな画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-12T16:47:57Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - Total-Decom: Decomposed 3D Scene Reconstruction with Minimal Interaction [51.3632308129838]
人間のインタラクションを最小限に抑えた3次元再構成法であるTotal-Decomを提案する。
提案手法は,Segment Anything Model (SAM) とハイブリッド型暗黙的なニューラルサーフェス表現をシームレスに統合し,メッシュベースの領域成長技術を用いて正確な3次元オブジェクト分解を行う。
提案手法をベンチマークデータセット上で広範囲に評価し,アニメーションやシーン編集などの下流アプリケーションの可能性を示す。
論文 参考訳(メタデータ) (2024-03-28T11:12:33Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View Synthesis [26.710960922302124]
実世界のマルチセンサーハイブリッドルームデータセット(MuSHRoom)を提案する。
我々のデータセットは、エキサイティングな課題を示し、最先端の手法がコスト効率が高く、ノイズの多いデータやデバイスに対して堅牢であることを要求する。
共同3Dメッシュ再構成と新しいビュー合成のためのデータセット上で、いくつかの有名なパイプラインをベンチマークする。
論文 参考訳(メタデータ) (2023-11-05T21:46:12Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。