論文の概要: Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders
- arxiv url: http://arxiv.org/abs/2412.17808v1
- Date: Mon, 23 Dec 2024 18:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:57:41.851226
- Title: Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders
- Title(参考訳): Dora: 3次元形状変化自動エンコーダのサンプリングとベンチマーク
- Authors: Rui Chen, Jianfeng Zhang, Yixun Liang, Guan Luo, Weiyu Li, Jiarui Liu, Xiu Li, Xiaoxiao Long, Jiashi Feng, Ping Tan,
- Abstract要約: 提案する鋭いエッジサンプリング戦略と2つのクロスアテンション機構により,VAEの再構築を促進する新しいアプローチであるDora-VAEを提案する。
VAE再建の品質を体系的に評価するために,シャープエッジの密度を通じて形状複雑性を定量化するベンチマークであるDora-benchを提案する。
- 参考スコア(独自算出の注目度): 87.17440422575721
- License:
- Abstract: Recent 3D content generation pipelines commonly employ Variational Autoencoders (VAEs) to encode shapes into compact latent representations for diffusion-based generation. However, the widely adopted uniform point sampling strategy in Shape VAE training often leads to a significant loss of geometric details, limiting the quality of shape reconstruction and downstream generation tasks. We present Dora-VAE, a novel approach that enhances VAE reconstruction through our proposed sharp edge sampling strategy and a dual cross-attention mechanism. By identifying and prioritizing regions with high geometric complexity during training, our method significantly improves the preservation of fine-grained shape features. Such sampling strategy and the dual attention mechanism enable the VAE to focus on crucial geometric details that are typically missed by uniform sampling approaches. To systematically evaluate VAE reconstruction quality, we additionally propose Dora-bench, a benchmark that quantifies shape complexity through the density of sharp edges, introducing a new metric focused on reconstruction accuracy at these salient geometric features. Extensive experiments on the Dora-bench demonstrate that Dora-VAE achieves comparable reconstruction quality to the state-of-the-art dense XCube-VAE while requiring a latent space at least 8$\times$ smaller (1,280 vs. > 10,000 codes). We will release our code and benchmark dataset to facilitate future research in 3D shape modeling.
- Abstract(参考訳): 最近の3Dコンテンツ生成パイプラインでは、拡散ベース生成のためのコンパクトな潜在表現に形状をエンコードするために、変分オートエンコーダ(VAE)が一般的である。
しかしながら, 形状VAEトレーニングにおける一様点サンプリング戦略は, 形状復元や下流生成作業の質を制限し, 幾何的細部が著しく失われることがしばしばある。
提案する鋭いエッジサンプリング戦略と2つのクロスアテンション機構により,VAEの再構築を促進する新しいアプローチであるDora-VAEを提案する。
トレーニング中, 幾何的複雑度の高い領域を識別・優先順位付けすることにより, 細粒度形状の特徴の保存を著しく改善する。
このようなサンプリング戦略と二重アテンション機構により、VAEは、一様サンプリングアプローチによって通常見逃される重要な幾何学的詳細に焦点を合わせることができる。
VAEの復元品質を体系的に評価するために,シャープエッジの密度を通じて形状の複雑さを定量化するベンチマークであるDora-benchを提案する。
Dora-VAEは最先端の高密度XCube-VAEに匹敵する再現性を実現する一方で、少なくとも8$\times$小(1,280 vs. > 10,000符号)の遅延空間を必要とすることを示した。
コードとベンチマークデータセットをリリースし、3D形状モデリングの今後の研究を促進する。
関連論文リスト
- AniSDF: Fused-Granularity Neural Surfaces with Anisotropic Encoding for High-Fidelity 3D Reconstruction [55.69271635843385]
AniSDF(AniSDF)は,高忠実度3次元再構成のための物理に基づく符号化による融合粒度ニューラルサーフェスを学習する新しいアプローチである。
本手法は, 幾何再構成と新規ビュー合成の両面において, SDF法の品質を飛躍的に向上させる。
論文 参考訳(メタデータ) (2024-10-02T03:10:38Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors [79.80916315953374]
本研究では,3次元再構成のための半教師付きフレームワークであるSSP3Dを提案する。
本稿では,現実的なオブジェクト再構成を導くために,注意誘導型プロトタイプ形状先行モジュールを提案する。
実世界のPix3Dデータセットに10%のラベリング比で転送する場合も,本手法は良好に機能する。
論文 参考訳(メタデータ) (2022-09-30T11:19:25Z) - A Geometric Perspective on Variational Autoencoders [0.0]
本稿では、完全に幾何学的な視点から、変分オートエンコーダフレームワークの新たな解釈を提案する。
このスキームを使うことで、バニラVAEと競合し、いくつかのベンチマークデータセットのより高度なバージョンよりも優れていることが示される。
論文 参考訳(メタデータ) (2022-09-15T15:32:43Z) - GLASS: Geometric Latent Augmentation for Shape Spaces [28.533018136138825]
幾何学的に動機づけられたエネルギーを用いて拡張し、その結果、サンプル(トレーニング)モデルのスパースコレクションを増強する。
本研究では,高剛性(ARAP)エネルギーのヘシアン解析を行い,その基礎となる(局所)形状空間に投射する。
我々は,3~10個のトレーニング形状から始めても,興味深い,意味のある形状変化の例をいくつか提示する。
論文 参考訳(メタデータ) (2021-08-06T17:56:23Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - High-Resolution Augmentation for Automatic Template-Based Matching of
Human Models [13.45311874573311]
変形可能な人間の形状の3次元形状マッチングのための新しい手法を提案する。
提案手法は,本質的なスペクトルマッチングパイプライン,形態素モデル,外生的な詳細精細化という,3つの異なるツールの併用に基づく。
論文 参考訳(メタデータ) (2020-09-19T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。