Fugu-MT 論文翻訳(概要): DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting

論文の概要: DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting

arxiv url: http://arxiv.org/abs/2503.11981v1
Date: Sat, 15 Mar 2025 03:37:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.647685
Title: DecompDreamer: Advancing Structured 3D Asset Generation with Multi-Object Decomposition and Gaussian Splatting
Title（参考訳）: DecompDreamer:多目的分解とガウススプラッティングによる構造化3次元アセット生成の促進
Authors: Utkarsh Nath, Rajeev Goel, Rahul Khurana, Kyle Min, Mark Ollila, Pavan Turaga, Varun Jampani, Tejaswi Gowda,
Abstract要約: DecompDreamerは高品質な3D合成を生成するために設計されたトレーニングルーチンである。シーンを構成されたコンポーネントとその関係に分解する。オブジェクトの絡み合いが優れている複雑な3D組成物を効果的に生成する。
参考スコア（独自算出の注目度）: 24.719972380079405
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Text-to-3D generation saw dramatic advances in recent years by leveraging Text-to-Image models. However, most existing techniques struggle with compositional prompts, which describe multiple objects and their spatial relationships. They often fail to capture fine-grained inter-object interactions. We introduce DecompDreamer, a Gaussian splatting-based training routine designed to generate high-quality 3D compositions from such complex prompts. DecompDreamer leverages Vision-Language Models (VLMs) to decompose scenes into structured components and their relationships. We propose a progressive optimization strategy that first prioritizes joint relationship modeling before gradually shifting toward targeted object refinement. Our qualitative and quantitative evaluations against state-of-the-art text-to-3D models demonstrate that DecompDreamer effectively generates intricate 3D compositions with superior object disentanglement, offering enhanced control and flexibility in 3D generation. Project page : https://decompdreamer3d.github.io
Abstract（参考訳）: テキストから3D生成は、テキストから画像へのモデルを活用することで、近年劇的な進歩を遂げた。しかし、既存の技術のほとんどは、複数の物体とその空間的関係を記述する構成的プロンプトに苦慮している。彼らはしばしば細粒な物体間相互作用を捉えるのに失敗する。複雑なプロンプトから高品質な3D合成を生成するために設計されたガウススプラッティングに基づくトレーニングルーチンであるDecompDreamerを紹介する。 DecompDreamerはVision-Language Models (VLM)を活用してシーンを構造化されたコンポーネントとその関係に分解する。本稿では,まず,対象物の改良に向けて段階的にシフトする前に,共同関係モデリングを優先するプログレッシブ最適化戦略を提案する。現状のテキストから3Dモデルに対する定性的・定量的評価により,DecompDreamerは複雑な3D合成を効果的に生成し,3D生成における制御と柔軟性の向上を図っている。プロジェクトページ:https://decompdreamer3d.github.io

関連論文リスト

StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。我々の手法は、常に最先端の連続検索手法より優れています。
論文参考訳（メタデータ） (2026-01-28T13:34:44Z)
Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints [12.704390013489054]
2つのメッシュのゼロショット3Dアライメントについて,その関係を記述したテキストプロンプトを用いて検討した。テスト時の相対的なポーズの最適化,翻訳,回転,等方的スケールの更新,CLIP駆動の勾配による検討を行った。我々の手法は、意味論的に忠実で物理的に妥当なアライメントをもたらす全ての代替手段より優れています。
論文参考訳（メタデータ） (2026-01-20T18:12:55Z)
RMLer: Synthesizing Novel Objects across Diverse Categories via Reinforcement Mixing Learning [16.682831359982064]
強化混合学習(Reinforcement Mixing Learning、RMLer)は、クロスカテゴリの概念融合を定式化するフレームワークである。私たちの仕事は、映画、ゲーム、デザインにおいて有望な応用を伴う、新しい視覚概念を生み出すための堅牢なフレームワークを提供します。
論文参考訳（メタデータ） (2025-12-22T11:44:32Z)
Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。 CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文参考訳（メタデータ） (2025-11-26T09:49:48Z)
HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。複雑なプロンプトを最小の意味単位に分解する。その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-11-25T06:24:25Z)
CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians [97.15119679296954]
CompGS は 3D Gaussian Splatting (GS) を用いた,効率的なテキストから3Dコンテンツ生成のための新しい生成フレームワークである。 CompGSは簡単に3D編集に拡張でき、シーン生成を容易にする。
論文参考訳（メタデータ） (2024-10-28T04:35:14Z)
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。 IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文参考訳（メタデータ） (2024-10-09T17:59:13Z)
DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文参考訳（メタデータ） (2024-04-14T12:13:07Z)
Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文参考訳（メタデータ） (2024-02-05T12:50:30Z)
TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-12-07T12:10:05Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文参考訳（メタデータ） (2023-11-29T18:55:38Z)
IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。 IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文参考訳（メタデータ） (2023-10-09T03:11:08Z)
ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文参考訳（メタデータ） (2023-06-06T17:59:10Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Contextual Model Aggregation for Fast and Robust Federated Learning in Edge Computing [88.76112371510999]
フェデレーション学習は、ネットワークエッジにおける分散機械学習の第一候補である。既存のアルゴリズムは、性能の緩やかな収束や堅牢性の問題に直面している。そこで本稿では,損失低減に対する最適コンテキスト依存境界を実現するためのコンテキストアグリゲーション手法を提案する。
論文参考訳（メタデータ） (2022-03-23T21:42:31Z)
Collaborative Multidisciplinary Design Optimization with Neural Networks [1.2691047660244335]
協調最適化の場合、二項分類の興味深い問題を解くことにより、より高速で信頼性の高い収束が得られることを示す。本稿では,非対称な損失関数,リプシッツ連続性を保証する構造,基本距離関数の性質を尊重する正規化を含むニューラルネットワークのトレーニングを提案する。
論文参考訳（メタデータ） (2021-06-11T00:03:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。