論文の概要: Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2509.15772v1
- Date: Fri, 19 Sep 2025 08:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.087272
- Title: Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation
- Title(参考訳): テキスト・ツー・3次元生成のための意味的・空間的リワードとしての視覚言語モデル
- Authors: Weimin Bai, Yubo Li, Weijian Luo, Wenzheng Chen, He Sun,
- Abstract要約: 本稿では,新しいテキストから3D生成フレームワークであるVLM3Dを提案する。
これは、大きな視覚言語モデルをScore Distillation Samplingパイプラインに統合し、差別化可能なセマンティクスと空間的プリエントとして利用する。
VLM3Dは, 意味的忠実度, 幾何学的コヒーレンス, 空間的正当性において, 従来のSDS法よりも優れていた。
- 参考スコア(独自算出の注目度): 23.359745449828363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score Distillation Sampling (SDS) enables high-quality text-to-3D generation by supervising 3D models through the denoising of multi-view 2D renderings, using a pretrained text-to-image diffusion model to align with the input prompt and ensure 3D consistency. However, existing SDS-based methods face two fundamental limitations: (1) their reliance on CLIP-style text encoders leads to coarse semantic alignment and struggles with fine-grained prompts; and (2) 2D diffusion priors lack explicit 3D spatial constraints, resulting in geometric inconsistencies and inaccurate object relationships in multi-object scenes. To address these challenges, we propose VLM3D, a novel text-to-3D generation framework that integrates large vision-language models (VLMs) into the SDS pipeline as differentiable semantic and spatial priors. Unlike standard text-to-image diffusion priors, VLMs leverage rich language-grounded supervision that enables fine-grained prompt alignment. Moreover, their inherent vision language modeling provides strong spatial understanding, which significantly enhances 3D consistency for single-object generation and improves relational reasoning in multi-object scenes. We instantiate VLM3D based on the open-source Qwen2.5-VL model and evaluate it on the GPTeval3D benchmark. Experiments across diverse objects and complex scenes show that VLM3D significantly outperforms prior SDS-based methods in semantic fidelity, geometric coherence, and spatial correctness.
- Abstract(参考訳): SDS(Score Distillation Sampling)は、マルチビュー2Dレンダリングのデノナイズを通じて3Dモデルを監視し、事前訓練されたテキスト・ツー・イメージ拡散モデルを用いて、入力プロンプトと整合し、3D整合性を確保することによって、高品質なテキスト・ツー・3D生成を可能にする。
しかし、既存のSDSベースの手法では、(1)CLIPスタイルのテキストエンコーダへの依存は、粗いセマンティックアライメントを導き、きめ細かなプロンプトに苦しむこと、(2)2D拡散先行法には空間的制約が明示されていないこと、そして、幾何学的不整合や多目的シーンにおけるオブジェクト関係の不正確な結果、という2つの基本的な制約に直面している。
これらの課題に対処するために,大きな視覚言語モデル(VLM)をSDSパイプラインに統合したテキスト・ツー・3D生成フレームワークであるVLM3Dを提案する。
標準的なテキストと画像の拡散前処理とは異なり、VLMはリッチな言語による監視を利用して、きめ細かいプロンプトアライメントを可能にする。
さらに、それらの固有視覚言語モデリングは、強い空間的理解を提供し、単一のオブジェクト生成における3次元一貫性を著しく向上させ、マルチオブジェクトシーンにおけるリレーショナル推論を改善する。
我々は、オープンソースのQwen2.5-VLモデルに基づいてVLM3Dをインスタンス化し、GPTeval3Dベンチマークで評価する。
多様な物体や複雑なシーンにわたる実験により、VLM3Dは、意味的忠実性、幾何学的コヒーレンス、空間的正当性において、以前のSDSベースの手法よりも著しく優れていた。
関連論文リスト
- 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback [18.857087708269038]
SDS(Score Distillation Sampling)はテキストから3Dコンテンツ生成において顕著な成功を収めた。
SDSベースの手法はユーザプロンプトのセマンティックな忠実さを維持するのに苦労する。
マルチモーダル大言語モデル(MLLM)からのアライメントフィードバックを統合したテキストコヒーレントスコア蒸留(TCSD)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:50:45Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。