論文の概要: GAP3D: Generative Alignment of VLM Latents to Patch-Level Embeddings for 3D Generation
- arxiv url: http://arxiv.org/abs/2605.28995v1
- Date: Wed, 27 May 2026 18:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.240174
- Title: GAP3D: Generative Alignment of VLM Latents to Patch-Level Embeddings for 3D Generation
- Title(参考訳): GAP3D:3次元生成のためのパッチレベル埋め込みへのVLM潜伏剤の生成アライメント
- Authors: Polytimi Anna Gkotsi, Andrii Zadaianchuk, Mohammad Mahdi Derakhshani,
- Abstract要約: GAP3Dはモジュラーで拡散に基づくアプローチで、VLMラテントを事前訓練された画像エンコーダの完全なパッチレベルの特徴空間に直接アライメントする。
本手法は,汎用画像とテキストのペアを主にトレーニングすることで,大規模3Dデータの必要性を回避している。
また、テキスト入力のみにトレーニングされているにもかかわらず、マルチモーダルプロンプトの緊急ゼロショット機能も備えている。
- 参考スコア(独自算出の注目度): 9.608873992799511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches integrating vision-language models (VLMs) as prompt encoders for generative model conditioning typically rely on expensive end-to-end training or map features to compressed representations, discarding the dense spatial structure required for geometry-aware tasks like 3D asset generation. To address this, we propose GAP3D, a modular, diffusion-based approach that aligns VLM-generated latents directly to the complete, patch-level feature space of a pre-trained image encoder, enabling a frozen downstream generative model to utilize a VLM as prompt encoder while maintaining a spatially structured conditioning signal. Evaluated on 3D asset generation, our method bypasses the need for large-scale 3D data by training mainly on general-domain image-text pairs. It also exhibits emergent zero-shot capabilities for multimodal prompts, despite being trained exclusively on text input. Finally, while currently prioritizing high-level semantics over fine-grained detail, GAP3D demonstrates that the representation gap between VLM and image-encoder feature spaces can be partially bridged through diffusion-based alignment, taking the first steps towards a modular integration of foundation models through generative alignment to dense embedding spaces.
- Abstract(参考訳): 生成モデル条件付けのプロンプトエンコーダとして視覚言語モデル(VLM)を統合する最近のアプローチは、一般的に高価なエンドツーエンドのトレーニングや圧縮表現へのマップ機能に依存しており、3Dアセット生成のような幾何学的タスクに必要な密集した空間構造を捨てている。
そこで本研究では,VLM生成したラテントを事前学習した画像エンコーダの完全なパッチレベル特徴空間に直接整合させるモジュール型拡散型アプローチであるGAP3Dを提案し,空間的に構造化されたコンディショニング信号を維持しつつ,VLMをプロンプトエンコーダとして利用できるようにした。
提案手法は,3次元アセット生成に基づいて評価され,一般領域の画像テキストペアを中心にトレーニングすることで,大規模3次元データの必要性を回避している。
また、テキスト入力のみにトレーニングされているにもかかわらず、マルチモーダルプロンプトの緊急ゼロショット機能も備えている。
最後に、現在高階意味論を詳細に優先順位付けしているが、GAP3Dは、VLMと画像エンコーダ特徴空間の間の表現ギャップが拡散ベースのアライメントによって部分的に橋渡し可能であることを証明し、高密度埋め込み空間への生成的アライメントを通じて基礎モデルのモジュラー統合に向けた第一歩を踏み出した。
関連論文リスト
- VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - LoST: Level of Semantics Tokenization for 3D Shapes [50.847769883816085]
State-of-the-artメソッドは、もともとレンダリングと圧縮のために設計された幾何学的なレベル・オブ・ディテール(LoD)階層に依存している。
本稿では,初期接頭辞が完全かつ可塑性な形状をデコードするように,サリエンスを指示するレベル・オブ・セマンティックス・トークン化(LoST)を提案する。
LoSTはSOTA再構成を実現し、幾何的および意味的再構成のメトリクスにおいて、従来のLoDベースの3次元形状トークン化器を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2026-03-18T17:56:06Z) - Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - Vision-Language Models as Differentiable Semantic and Spatial Rewards for Text-to-3D Generation [23.359745449828363]
本稿では,新しいテキストから3D生成フレームワークであるVLM3Dを提案する。
これは、大きな視覚言語モデルをScore Distillation Samplingパイプラインに統合し、差別化可能なセマンティクスと空間的プリエントとして利用する。
VLM3Dは, 意味的忠実度, 幾何学的コヒーレンス, 空間的正当性において, 従来のSDS法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-19T08:54:52Z) - LTM3D: Bridging Token Spaces for Conditional 3D Generation with Auto-Regressive Diffusion Framework [40.17218893870908]
LTM3Dは条件付き3次元形状生成のための潜在トークン空間モデリングフレームワークである。
拡散と自己回帰(Auto-Regressive、AR)モデルの強みを統合する。
LTM3Dはマルチモーダル・マルチ表現3D生成のための一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-30T06:08:45Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。