論文の概要: AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos
- arxiv url: http://arxiv.org/abs/2411.19950v1
- Date: Fri, 29 Nov 2024 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:39.580439
- Title: AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos
- Title(参考訳): AlphaTablets:モノクロ映像からの3次元平面再構成のための汎用平面表現
- Authors: Yuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu,
- Abstract要約: 3次元平面の新規で汎用的な表現であるAlphaTabletsを紹介する。
アルファチャネルと同様に3D平面を表現することで、AlphaTabletsは現在の2D平面と3D平面の利点を組み合わせている。
画像に3次元平面を効率よくレンダリングするために、AlphaTablets上で微分可能な幾何化を導出する。
- 参考スコア(独自算出の注目度): 36.09488108746078
- License:
- Abstract: We introduce AlphaTablets, a novel and generic representation of 3D planes that features continuous 3D surface and precise boundary delineation. By representing 3D planes as rectangles with alpha channels, AlphaTablets combine the advantages of current 2D and 3D plane representations, enabling accurate, consistent and flexible modeling of 3D planes. We derive differentiable rasterization on top of AlphaTablets to efficiently render 3D planes into images, and propose a novel bottom-up pipeline for 3D planar reconstruction from monocular videos. Starting with 2D superpixels and geometric cues from pre-trained models, we initialize 3D planes as AlphaTablets and optimize them via differentiable rendering. An effective merging scheme is introduced to facilitate the growth and refinement of AlphaTablets. Through iterative optimization and merging, we reconstruct complete and accurate 3D planes with solid surfaces and clear boundaries. Extensive experiments on the ScanNet dataset demonstrate state-of-the-art performance in 3D planar reconstruction, underscoring the great potential of AlphaTablets as a generic 3D plane representation for various applications. Project page is available at: https://hyzcluster.github.io/alphatablets
- Abstract(参考訳): 連続した3次元表面と正確な境界線を特徴とする3次元平面の新規で汎用的な表現であるAlphaTabletsを紹介する。
アルファチャネルを持つ矩形として3D平面を表現することで、AlphaTabletsは現在の2D平面と3D平面の利点を組み合わせて、3D平面の正確な、一貫性のある柔軟なモデリングを可能にする。
我々は、AlphaTablets上で3次元平面を画像に効率よくレンダリングするためのラスタライゼーションを導出し、モノクルビデオから3次元平面再構成を行うための新しいボトムアップパイプラインを提案する。
事前訓練されたモデルの2Dスーパーピクセルと幾何学的キューから始め、3D平面をAlphaTabletとして初期化し、異なるレンダリングにより最適化する。
AlphaTabletsの成長と改良を促進するために、効果的なマージンスキームが導入された。
逐次最適化とマージにより,立体面と明確な境界を持つ完全かつ正確な3次元平面を再構成する。
ScanNetデータセットの大規模な実験は、3次元平面再構成における最先端の性能を示し、AlphaTabletsの大きな可能性を様々なアプリケーションのための汎用的な3次元平面表現として示している。
プロジェクトページは、https://hyzcluster.github.io/alphatablets.comで公開されている。
関連論文リスト
- TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z) - Structured 3D Latents for Scalable and Versatile 3D Generation [28.672494137267837]
汎用的で高品質な3Dアセット作成のための新しい3D生成手法を提案する。
基本となるのは、異なる出力フォーマットへのデコードを可能にする、構造化されたLATent表現である。
これは、疎人口の少ない3Dグリッドと、強力な視覚基盤モデルから抽出された濃密な多視点視覚特徴を統合することで実現される。
論文 参考訳(メタデータ) (2024-12-02T13:58:38Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。
提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文 参考訳(メタデータ) (2024-05-23T17:49:37Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。