論文の概要: Enhanced Mixture 3D CGAN for Completion and Generation of 3D Objects
- arxiv url: http://arxiv.org/abs/2602.08046v1
- Date: Sun, 08 Feb 2026 16:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.949953
- Title: Enhanced Mixture 3D CGAN for Completion and Generation of 3D Objects
- Title(参考訳): 3次元物体の完成・生成のための3次元混合CGANの開発
- Authors: Yahia Hamdi, Nicolas Andrialovanirina, Kélig Mahé, Emilie Poisson Caillault,
- Abstract要約: 3Dオブジェクトの生成と完成は、コンピュータビジョンにおける変革的な挑戦を表している。
本稿では,高品質な3Dモデルを生成するため,Deep 3D Convolutional GANとMoEフレームワークの統合について検討する。
- 参考スコア(独自算出の注目度): 0.2624902795082451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation and completion of 3D objects represent a transformative challenge in computer vision. Generative Adversarial Networks (GANs) have recently demonstrated strong potential in synthesizing realistic visual data. However, they often struggle to capture complex and diverse data distributions, particularly in scenarios involving incomplete inputs or significant missing regions. These challenges arise mainly from the high computational requirements and the difficulty of modeling heterogeneous and structurally intricate data, which restrict their applicability in real-world settings. Mixture of Experts (MoE) models have emerged as a promising solution to these limitations. By dynamically selecting and activating the most relevant expert sub-networks for a given input, MoEs improve both performance and efficiency. In this paper, we investigate the integration of Deep 3D Convolutional GANs (CGANs) with a MoE framework to generate high-quality 3D models and reconstruct incomplete or damaged objects. The proposed architecture incorporates multiple generators, each specialized to capture distinct modalities within the dataset. Furthermore, an auxiliary loss-free dynamic capacity constraint (DCC) mechanism is introduced to guide the selection of categorical generators, ensuring a balance between specialization, training stability, and computational efficiency, which is critical for 3D voxel processing. We evaluated the model's ability to generate and complete shapes with missing regions of varying sizes and compared its performance with state-of-the-art approaches. Both quantitative and qualitative results confirm the effectiveness of the proposed MoE-DCGAN in handling complex 3D data.
- Abstract(参考訳): 3Dオブジェクトの生成と完成は、コンピュータビジョンにおける変革的な挑戦を表している。
GAN(Generative Adversarial Networks)は、最近、現実的な視覚データを合成する強力な可能性を示している。
しかし、特に不完全な入力や大きな欠落した領域を含むシナリオにおいて、複雑で多様なデータ分布を捉えるのに苦労することが多い。
これらの課題は、主に高い計算要求と、実世界における適用性を制限する不均一で構造的に複雑なデータをモデル化することの難しさから生じる。
これらの制限に対する有望な解決策として、Mixture of Experts (MoE)モデルが登場した。
与えられた入力に対して最も関連性の高いサブネットワークを動的に選択し、活性化することにより、MoEは性能と効率の両方を改善します。
本稿では,Deep 3D Convolutional GANs(CGANs)をMoEフレームワークに統合し,高品質な3Dモデルを生成し,不完全なオブジェクトや損傷オブジェクトを再構成する。
提案アーキテクチャには複数のジェネレータが組み込まれており、それぞれがデータセット内の異なるモダリティをキャプチャする。
さらに、3Dボクセル処理に不可欠な特殊化、訓練安定性、計算効率のバランスを確保するため、カテゴリジェネレータの選択を誘導する補助的損失のない動的容量制約(DCC)機構を導入する。
異なる大きさの領域を欠いたモデルが生成・完成する能力を評価し,その性能を最先端のアプローチと比較した。
定量的および定性的な結果から,複雑な3次元データの処理におけるMoE-DCGANの有効性が確認された。
関連論文リスト
- MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - EfficientDepth: A Fast and Detail-Preserving Monocular Depth Estimation Model [1.4525559282354221]
我々は、トランスフォーマーアーキテクチャと軽量畳み込みデコーダを組み合わせた、EfficientDepthと呼ばれる新しいMDEシステムを導入する。
我々は,ハイパフォーマンスなMDE法を用いて,ラベル付き合成画像と実画像と,擬似ラベル付き実画像の組み合わせでモデルを訓練する。
一般的に使用される目的に加えて,LPIPSに基づく損失関数を導入し,ネットワークが詳細な深度マップを作成することを奨励する。
論文 参考訳(メタデータ) (2025-09-26T16:05:43Z) - HDiffTG: A Lightweight Hybrid Diffusion-Transformer-GCN Architecture for 3D Human Pose Estimation [21.823965837699166]
HDiffTGは、Transformer、Graph Convolutional Network(GCN)、拡散モデルを統一されたフレームワークに統合する、新しい3Dヒューマンポース(3DHCN)メソッドである。
軽量な設計を維持しながら,HDiffTGはポーズ推定精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T09:26:37Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - RW-Net: Enhancing Few-Shot Point Cloud Classification with a Wavelet Transform Projection-based Network [6.305913808037513]
RW-Netは、RDE(Rate-Distortion Explanation)とウェーブレット変換を統合することで、上記の課題に対処するために設計された新しいフレームワークである。
入力データの低周波成分を強調することにより、ウェーブレット変換は3次元オブジェクトの基本的な幾何学的および構造的特性をキャプチャする。
その結果,本手法は最先端の性能を達成し,数ショットの学習シナリオにおいて,より優れた一般化とロバスト性を示すことが示された。
論文 参考訳(メタデータ) (2025-01-06T18:55:59Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - A Generative Machine Learning Model for Material Microstructure 3D
Reconstruction and Performance Evaluation [4.169915659794567]
2次元から3次元への次元展開は、現在の技術的観点から非常に難しい逆問題と見なされている。
U-netのマルチスケール特性とGANの生成能力を統合する新しい生成モデルが提案されている。
さらに、画像正規化損失とワッサーシュタイン距離損失を組み合わせることにより、モデルの精度をさらに向上する。
論文 参考訳(メタデータ) (2024-02-24T13:42:34Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。