論文の概要: A Three-Level Alignment Framework for Large-Scale 3D Retrieval and Controlled 4D Generation
- arxiv url: http://arxiv.org/abs/2512.22294v1
- Date: Thu, 25 Dec 2025 20:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.967841
- Title: A Three-Level Alignment Framework for Large-Scale 3D Retrieval and Controlled 4D Generation
- Title(参考訳): 大規模3次元検索と制御された4次元生成のための3レベルアライメントフレームワーク
- Authors: Philip Xu, David Elizondo, Raouf Hamzaoui,
- Abstract要約: 大規模オープンな3D検索と制御された4D生成のための統合フレームワークであるUni4Dを紹介する。
Uni4Dは3Dテキストのマルチヘッドアテンションと検索モデルを用いて、セマンティックアライメントの改善を通じてテキストから3D検索を最適化する。
このフレームワークは、正確なテキストから3D検索、画像アライメントへのマルチビュー3D、時間的に一貫した4Dアライメントを生成するための画像からテキストアライメントという3つのコンポーネントを通じて、クロスモーダルアライメントをさらに強化する。
- 参考スコア(独自算出の注目度): 6.492424274249482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Uni4D, a unified framework for large scale open vocabulary 3D retrieval and controlled 4D generation based on structured three level alignment across text, 3D models, and image modalities. Built upon the Align3D 130 dataset, Uni4D employs a 3D text multi head attention and search model to optimize text to 3D retrieval through improved semantic alignment. The framework further strengthens cross modal alignment through three components: precise text to 3D retrieval, multi view 3D to image alignment, and image to text alignment for generating temporally consistent 4D assets. Experimental results demonstrate that Uni4D achieves high quality 3D retrieval and controllable 4D generation, advancing dynamic multimodal understanding and practical applications.
- Abstract(参考訳): テキスト, 3Dモデル, 画像モダリティ間の3次元アライメント構造に基づいて, 大規模オープンな3次元検索と制御された4次元生成のための統合フレームワークUni4Dを紹介する。
Align3D 130データセットに基づいて構築されたUni4Dは、3Dテキストのマルチヘッドアテンションと検索モデルを使用して、セマンティックアライメントの改善を通じてテキストから3D検索を最適化する。
このフレームワークはさらに、正確なテキストから3D検索、画像アライメントへのマルチビュー3D、時間的に一貫した4Dアライメントを生成するための画像からテキストアライメントの3つのコンポーネントを通じて、クロスモーダルアライメントを強化する。
実験結果から、Uni4Dは高品質な3D検索と制御可能な4D生成を実現し、動的マルチモーダル理解の進歩と実用化を実現している。
関連論文リスト
- 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。