論文の概要: CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback
- arxiv url: http://arxiv.org/abs/2504.19860v1
- Date: Mon, 28 Apr 2025 14:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.483177
- Title: CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback
- Title(参考訳): CoherenDream: マルチモーダル大言語モデルによる3次元生成におけるホロスティックテキストのコヒーレンス向上
- Authors: Chenhan Jiang, Yihan Zeng, Hang Xu, Dit-Yan Yeung,
- Abstract要約: テキストコヒーレントスコア蒸留(TCSD)は多モード大言語モデル(MLLM)からのアライメントフィードバックを統合する
3DLLaVA-CRITIC(3DLLaVA-CRITIC)は、3次元世代におけるマルチビューテキストアライメントを評価するための微調整MLLMである。
CoherenDreamは、複数のベンチマークでテキスト整列した3D生成における最先端のパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 40.163073128022944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Score Distillation Sampling (SDS) has achieved remarkable success in text-to-3D content generation. However, SDS-based methods struggle to maintain semantic fidelity for user prompts, particularly when involving multiple objects with intricate interactions. While existing approaches often address 3D consistency through multiview diffusion model fine-tuning on 3D datasets, this strategy inadvertently exacerbates text-3D alignment degradation. The limitation stems from SDS's inherent accumulation of view-independent biases during optimization, which progressively diverges from the ideal text alignment direction. To alleviate this limitation, we propose a novel SDS objective, dubbed as Textual Coherent Score Distillation (TCSD), which integrates alignment feedback from multimodal large language models (MLLMs). Our TCSD leverages cross-modal understanding capabilities of MLLMs to assess and guide the text-3D correspondence during the optimization. We further develop 3DLLaVA-CRITIC - a fine-tuned MLLM specialized for evaluating multiview text alignment in 3D generations. Additionally, we introduce an LLM-layout initialization that significantly accelerates optimization convergence through semantic-aware spatial configuration. Comprehensive evaluations demonstrate that our framework, CoherenDream, establishes state-of-the-art performance in text-aligned 3D generation across multiple benchmarks, including T$^3$Bench and TIFA subset. Qualitative results showcase the superior performance of CoherenDream in preserving textual consistency and semantic interactions. As the first study to incorporate MLLMs into SDS optimization, we also conduct extensive ablation studies to explore optimal MLLM adaptations for 3D generation tasks.
- Abstract(参考訳): SDS(Score Distillation Sampling)はテキストから3Dコンテンツ生成において顕著な成功を収めた。
しかし、SDSベースの手法は、特に複雑な対話を伴う複数のオブジェクトを含む場合、ユーザープロンプトのセマンティックな忠実さを維持するのに苦労する。
既存のアプローチでは、多視点拡散モデルによる3Dデータセットの微調整によって、しばしば3D一貫性に対処するが、この戦略は、必然的にテキスト3Dアライメントの劣化を悪化させる。
この制限は、最適化中にSDSが本質的にビュー非依存バイアスを蓄積していることに起因し、理想的なテキストアライメント方向から徐々に分岐する。
この制限を緩和するために,マルチモーダル大言語モデル(MLLM)からのアライメントフィードバックを統合する,テクスチュアルコヒーレントスコア蒸留(TCSD)と呼ばれる新しいSDS目標を提案する。
TCSDはMLLMのクロスモーダル理解機能を利用して、最適化中のテキスト3D対応を評価・誘導する。
さらに,3次元世代における多視点テキストアライメント評価に特化した微調整MLLMである3DLLaVA-CRITICを開発した。
さらに,LLM-layout初期化を導入し,セマンティック・アウェア空間構成による最適化収束を著しく促進する。
我々のフレームワークであるCoherenDreamは、T$^3$BenchやTIFAサブセットなど、複数のベンチマークでテキスト整列した3D生成において、最先端のパフォーマンスを確立している。
質的な結果は、テキストの一貫性とセマンティックな相互作用を保存する上で、CoherenDreamの優れたパフォーマンスを示している。
MLLMをSDS最適化に組み込む最初の研究として、我々は3次元生成タスクに最適なMLLM適応を探索する広範囲なアブレーション研究も行っている。
関連論文リスト
- LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - TV-3DG: Mastering Text-to-3D Customized Generation with Visual Prompt [41.880416357543616]
我々は、スコア蒸留サンプリング(SDS)における差項を除去する新しいアルゴリズム、スコアマッチング(CSM)を提案する。
我々は視覚的プロンプト情報を注意融合機構とサンプリング誘導手法と統合し、Visual Prompt CSMアルゴリズムを構成する。
本手法をTV-3DGとして提示し,安定かつ高品質でカスタマイズされた3D生成を実現するための広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-16T07:13:09Z) - Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。
本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。
我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。
明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文 参考訳(メタデータ) (2024-10-11T17:26:00Z) - MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification [13.872254142378772]
本稿では,テキスト・ツー・3Dコンテンツ生成のための統合フレームワークを提案する。
提案手法は3次元モデルの構造を反復的に形成するために多視点誘導を利用する。
また,表面近傍にガウスを配向させる新しい密度化アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-10T16:16:34Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。
本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。
以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T18:17:09Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Beyond First Impressions: Integrating Joint Multi-modal Cues for
Comprehensive 3D Representation [72.94143731623117]
既存の方法は、単に3D表現を単一ビューの2D画像と粗い親カテゴリテキストに整列させる。
十分でないシナジーは、堅牢な3次元表現は共同視覚言語空間と一致すべきという考えを無視している。
我々は,JM3Dと呼ばれる多視点共同モダリティモデリング手法を提案し,点雲,テキスト,画像の統一表現を求める。
論文 参考訳(メタデータ) (2023-08-06T01:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。