論文の概要: Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.22782v1
- Date: Tue, 24 Mar 2026 04:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.299679
- Title: Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models
- Title(参考訳): Know3D:視覚言語モデルからの知識による3D生成の実証
- Authors: Wenyue Chen, Wenjue Chen, Peng Li, Qinghe Wang, Xu Jia, Heliang Zheng, Rongfei Jia, Yuan Liu, Ronggang Wang,
- Abstract要約: Know3Dは、大規模言語モデルからの豊富な知識を3D生成プロセスに組み込む新しいフレームワークである。
抽象的な指示と未観測領域の幾何学的再構成のギャップを埋めることに成功した。
- 参考スコア(独自算出の注目度): 39.48274812723658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D generation have improved the fidelity and geometric details of synthesized 3D assets. However, due to the inherent ambiguity of single-view observations and the lack of robust global structural priors caused by limited 3D training data, the unseen regions generated by existing models are often stochastic and difficult to control, which may sometimes fail to align with user intentions or produce implausible geometries. In this paper, we propose Know3D, a novel framework that incorporates rich knowledge from multimodal large language models into 3D generative processes via latent hidden-state injection, enabling language-controllable generation of the back-view for 3D assets. We utilize a VLM-diffusion-based model, where the VLM is responsible for semantic understanding and guidance. The diffusion model acts as a bridge that transfers semantic knowledge from the VLM to the 3D generation model. In this way, we successfully bridge the gap between abstract textual instructions and the geometric reconstruction of unobserved regions, transforming the traditionally stochastic back-view hallucination into a semantically controllable process, demonstrating a promising direction for future 3D generation models.
- Abstract(参考訳): 最近の3D生成技術は、合成された3Dの忠実度と幾何学的詳細性を改善している。
しかし、シングルビュー観測の本質的な曖昧さと、限られた3次元のトレーニングデータによって引き起こされる堅牢なグローバルな構造的先行性の欠如により、既存のモデルによって生成された見えない領域は、しばしば確率的かつ制御が難しい。
本稿では,多モード大言語モデルからの豊富な知識を潜在隠れ状態注入による3D生成プロセスに組み込んだ,言語制御可能な3Dアセットのバックビュー生成を可能にするフレームワークであるKnow3Dを提案する。
我々は,VLMが意味的理解と指導を担っているVLM拡散モデルを利用する。
拡散モデルは、VLMから3次元生成モデルに意味的知識を伝達するブリッジとして機能する。
このようにして,従来の確率的背景幻覚を意味的に制御可能なプロセスに変換し,将来の3D生成モデルに期待できる方向性を示す。
関連論文リスト
- Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - PnP-U3D: Plug-and-Play 3D Framework Bridging Autoregression and Diffusion for Unified Understanding and Generation [45.72473673810981]
本稿では,自己回帰と拡散を組み合わせた3次元理解・生成のための最初の統合フレームワークを提案する。
軽量トランスは、大きな言語モデルの特徴空間と3次元拡散モデルの条件空間を橋渡しする。
本フレームワークは,多種多様な3次元理解および生成ベンチマークにおける最先端性能を実現するとともに,3次元編集タスクにも優れる。
論文 参考訳(メタデータ) (2026-02-03T13:49:23Z) - End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。
幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文 参考訳(メタデータ) (2025-06-23T06:24:12Z) - Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion [59.00571588016896]
3Dモデリングでは、デザイナはしばしば既存の3Dモデルを使って新しいものを作成する。
このプラクティスは、参照付加3D生成に拡散を利用する新しい生成モデルであるPhidiasの開発にインスピレーションを与えている。
論文 参考訳(メタデータ) (2024-09-17T17:59:33Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。