論文の概要: SC-Diff: 3D Shape Completion with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.12470v1
- Date: Tue, 19 Mar 2024 06:01:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-20 15:12:20.554703
- Title: SC-Diff: 3D Shape Completion with Latent Diffusion Models
- Title(参考訳): SC-Diff:潜在拡散モデルを用いた3次元形状補完
- Authors: Juan D. Galvis, Xingxing Zuo, Simon Schaefer, Stefan Leutengger,
- Abstract要約: 本稿では, 形状の完成に最適化された3次元潜在拡散モデルを用いて, 3次元形状完備化手法を提案する。
本手法は,空間的コンディショニングとクロスアテンションによる画像ベースコンディショニングを,キャプチャー部分スキャンからの3次元特徴の統合により組み合わせたものである。
- 参考スコア(独自算出の注目度): 4.913210912019975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a 3D shape completion approach using a 3D latent diffusion model optimized for completing shapes, represented as Truncated Signed Distance Functions (TSDFs), from partial 3D scans. Our method combines image-based conditioning through cross-attention and spatial conditioning through the integration of 3D features from captured partial scans. This dual guidance enables high-fidelity, realistic shape completions at superior resolutions. At the core of our approach is the compression of 3D data into a low-dimensional latent space using an auto-encoder inspired by 2D latent diffusion models. This compression facilitates the processing of higher-resolution shapes and allows us to apply our model across multiple object classes, a significant improvement over other existing diffusion-based shape completion methods, which often require a separate diffusion model for each class. We validated our approach against two common benchmarks in the field of shape completion, demonstrating competitive performance in terms of accuracy and realism and performing on par with state-of-the-art methods despite operating at a higher resolution with a single model for all object classes. We present a comprehensive evaluation of our model, showcasing its efficacy in handling diverse shape completion challenges, even on unseen object classes. The code will be released upon acceptance.
- Abstract(参考訳): 本稿では, 部分的な3次元スキャンから, TSDF(Trncated Signed Distance Function)として表現される形状の完備化に最適化された3次元潜在拡散モデルを用いた3次元形状完備化手法を提案する。
本手法は,空間的コンディショニングとクロスアテンションによる画像ベースコンディショニングを,キャプチャー部分スキャンからの3次元特徴の統合により組み合わせたものである。
このデュアルガイダンスにより、高忠実でリアルな形状を優れた解像度で実現することができる。
提案手法のコアとなるのは,2次元潜伏拡散モデルにインスパイアされたオートエンコーダを用いた低次元潜伏空間への3次元データの圧縮である。
この圧縮により、高解像度形状の処理が容易になり、複数のオブジェクトクラスにまたがってモデルを適用できます。
我々は,形状完備化の分野での2つの一般的なベンチマークに対するアプローチを検証し,精度とリアリズムの両面での競争性能を実証し,全てのオブジェクトクラスに対して単一のモデルで高解像度で動作しながら,最先端の手法に匹敵する性能を実証した。
本稿では,本モデルに対する包括的評価を行い,未確認オブジェクトクラスにおいても多様な形状完備化課題に対処する上での有効性を示す。
コードは受理時にリリースされます。
関連論文リスト
- Repurposing 2D Diffusion Models for 3D Shape Completion [14.959136858291904]
不完全点雲からの3次元形状完備化に2次元拡散モデルを適用する枠組みを提案する。
本稿では3次元幾何学のコンパクトな2次元表現であるShape Atlasを紹介する。
我々は,PCNおよびShapeNet-55データセットにおける結果の有効性を検証した。
論文 参考訳(メタデータ) (2025-12-16T00:59:05Z) - PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models [5.077352707415241]
textitPointDicoは、生成的モデリングの認知と、知識の蒸留を通じて、相互モーダルなコントラスト学習の両方から学習する。
textitPointDicoは、ScanObjectNNのtextbf94.32%の精度、ShapeNetPartのtextbf86.5%のInst.mIoUといった3D表現学習において、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2025-12-09T07:57:56Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - BridgeShape: Latent Diffusion Schrödinger Bridge for 3D Shape Completion [20.704173763035488]
BridgeShapeは、潜伏拡散型Schr"odingerブリッジによる3次元形状完成のための新しいフレームワークである。
本稿では,Depth-Enhanced Vector Quantized Variational Autoencoder (VQ-VAE)を導入し,3次元形状をコンパクトな潜在空間に符号化する。
BridgeShapeは、大規模な3D形状補完ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-29T12:21:21Z) - LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework [40.17218893870908]
LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。
拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。
LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-30T06:08:45Z) - Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling [34.238349310770886]
Sarc3Dはスパース変形可能なマーチングキューブ表現と新しいエンコーダSparconv-VAEを組み合わせた統一フレームワークである。
Sparc3Dは、オープンサーフェス、切断されたコンポーネント、複雑な幾何学を含む挑戦的な入力に対して、最先端の再構築忠実性を達成する。
論文 参考訳(メタデータ) (2025-05-20T15:44:54Z) - Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。
Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T15:54:21Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - From Diffusion to Resolution: Leveraging 2D Diffusion Models for 3D Super-Resolution Task [19.56372155146739]
本稿では,3次元電子顕微鏡(vEM)の超解像性を高めるために,2次元拡散モデルと体積内の横方向の連続性を利用する新しい手法を提案する。
イオンビーム走査型電子顕微鏡(FIB-SEM)の2つのデータを用いて,本フレームワークのロバスト性と実用性を示した。
論文 参考訳(メタデータ) (2024-11-25T09:12:55Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - Robust 3D Tracking with Quality-Aware Shape Completion [67.9748164949519]
そこで本研究では,高密度および完全点の雲からなる合成対象表現について,ロバストな3次元追跡のための形状完備化により正確に表現する。
具体的には, 形状が整ったボキセル化3次元追跡フレームワークを設計し, ノイズのある歴史的予測の悪影響を軽減するために, 品質に配慮した形状完備化機構を提案する。
論文 参考訳(メタデータ) (2023-12-17T04:50:24Z) - Diffusion-SS3D: Diffusion Model for Semi-supervised 3D Object Detection [77.23918785277404]
半教師付き3次元物体検出のための拡散モデルを用いて,擬似ラベルの品質向上に向けた新たな視点であるDiffusion-SS3Dを提案する。
具体的には、劣化した3Dオブジェクトサイズとクラスラベル、分布を生成し、拡散モデルをデノナイズプロセスとして利用し、バウンディングボックス出力を得る。
我々は,ScanNetとSUN RGB-Dベンチマークデータセットの実験を行い,既存手法に対する最先端性能の実現を実証した。
論文 参考訳(メタデータ) (2023-12-05T18:54:03Z) - HoloFusion: Towards Photo-realistic 3D Generative Modeling [77.03830223281787]
拡散に基づく画像生成装置は、高品質で多様なサンプルを作成できるようになったが、その成功はまだ3D生成に完全に変換されていない。
提案するHoloFusionは,高忠実度,高可塑性,多種多様な3Dサンプルを作成するために,これらのアプローチを最大限に組み合わせた手法である。
論文 参考訳(メタデータ) (2023-08-28T01:19:33Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - DiffComplete: Diffusion-based Generative 3D Shape Completion [114.43353365917015]
3次元レンジスキャンにおける形状完成のための拡散に基づく新しいアプローチを提案する。
私たちはリアリズム、マルチモダリティ、高忠実さのバランスを取ります。
DiffCompleteは2つの大規模3次元形状補完ベンチマークに新しいSOTA性能を設定する。
論文 参考訳(メタデータ) (2023-06-28T16:07:36Z) - Locally Attentional SDF Diffusion for Controllable 3D Shape Generation [24.83724829092307]
本研究では,2次元スケッチ画像入力を用いて3次元形状をモデル化する拡散型3次元生成フレームワークを提案する。
本手法は, 2段階拡散モデルを用いて構築され, その第1段階である占有拡散は, 低分解能占有場を生成し, 形状シェルを近似することを目的としている。
SDF拡散と呼ばれる第2段階は、第1段階によって決定された占有ボクセル内の高分解能符号距離場を合成し、微細な幾何を抽出する。
論文 参考訳(メタデータ) (2023-05-08T05:07:23Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - 3D Neural Field Generation using Triplane Diffusion [37.46688195622667]
ニューラルネットワークの3次元認識のための効率的な拡散ベースモデルを提案する。
当社のアプローチでは,ShapeNetメッシュなどのトレーニングデータを,連続的占有フィールドに変換することによって前処理する。
本論文では,ShapeNetのオブジェクトクラスにおける3D生成の現状について述べる。
論文 参考訳(メタデータ) (2022-11-30T01:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。