論文の概要: SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2410.07658v2
- Date: Wed, 21 May 2025 07:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:56.999778
- Title: SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation
- Title(参考訳): SeMv-3D:汎用テキスト・ツー・3D生成におけるセマンティック・マルチビューの整合性を目指して
- Authors: Xiao Cai, Pengpeng Zeng, Lianli Gao, Sitong Su, Heng Tao Shen, Jingkuan Song,
- Abstract要約: SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
- 参考スコア(独自算出の注目度): 122.47961178994456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General Text-to-3D (GT23D) generation is crucial for creating diverse 3D content across objects and scenes, yet it faces two key challenges: 1) ensuring semantic consistency between input text and generated 3D models, and 2) maintaining multi-view consistency across different perspectives within 3D. Existing approaches typically address only one of these challenges, often leading to suboptimal results in semantic fidelity and structural coherence. To overcome these limitations, we propose SeMv-3D, a novel framework that jointly enhances semantic alignment and multi-view consistency in GT23D generation. At its core, we introduce Triplane Prior Learning (TPL), which effectively learns triplane priors by capturing spatial correspondences across three orthogonal planes using a dedicated Orthogonal Attention mechanism, thereby ensuring geometric consistency across viewpoints. Additionally, we present Prior-based Semantic Aligning in Triplanes (SAT), which enables consistent any-view synthesis by leveraging attention-based feature alignment to reinforce the correspondence between textual semantics and triplane representations. Extensive experiments demonstrate that our method sets a new state-of-the-art in multi-view consistency, while maintaining competitive performance in semantic consistency compared to methods focused solely on semantic alignment. These results emphasize the remarkable ability of our approach to effectively balance and excel in both dimensions, establishing a new benchmark in the field.
- Abstract(参考訳): 汎用テキスト・ツー・3D(GT23D)生成は、オブジェクトやシーンにまたがる多様な3Dコンテンツを作成するのに不可欠だが、2つの大きな課題に直面している。
1)入力テキストと生成された3Dモデル間のセマンティック一貫性を確保し、
2)3次元の異なる視点における複数視点の整合性を維持する。
既存のアプローチは通常これらの課題の1つにのみ対処し、しばしば意味的忠実さと構造的コヒーレンスをもたらす。
これらの制約を克服するために,GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークであるSeMv-3Dを提案する。
その中核となるTPL(Triplane Prior Learning)は、3つの直交平面の空間的対応を専用の直交アテンション機構を用いて捕捉し、視点間の幾何的整合性を確保することで、効果的に三平面先行学習を学習する。
さらに、注意に基づく特徴アライメントを活用して、テキスト意味論と三面体表現との対応を強化することによって、一貫した任意のビュー合成を可能にする、三面体における事前ベースセマンティックアライニング(SAT)を提案する。
本手法は, セマンティックアライメントに焦点を絞った手法と比較して, セマンティックアライメントにおける競合性能を維持しつつ, マルチビュー一貫性における新しい最先端の手法を定めていることを示す。
これらの結果は,両次元のバランスを効果的に保ち,効率を良くするための我々のアプローチの顕著な能力を強調し,この分野に新たなベンチマークを確立する。
関連論文リスト
- Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - Chasing Consistency in Text-to-3D Generation from a Single Image [35.60887743544786]
一つの画像から意味的・幾何学的・飽和的・持続的テキスト・ツー・3D生成のための3段階のフレームワークであるConsist3Dを提案する。
具体的には、セマンティックエンコーディングステージは、ビューと推定から独立してトークンを学習し、セマンティック一貫性とロバスト性を促進する。
幾何符号化段階は、新しい視点推定の下で包括的幾何学的制約と再構成的制約で別のトークンを学習し、過剰適合を減らし、幾何整合を奨励する。
論文 参考訳(メタデータ) (2023-09-07T09:50:48Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。