論文の概要: TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment
- arxiv url: http://arxiv.org/abs/2601.19247v1
- Date: Tue, 27 Jan 2026 06:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.203246
- Title: TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment
- Title(参考訳): TIGaussian: Disentangle Gaussian for Space-Awared Text-Image-3D Alignment
- Authors: Jiarun Liu, Qifeng Chen, Yiru Zhao, Minghua Liu, Baorui Ma, Sheng Yang,
- Abstract要約: TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。
我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。
テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
- 参考スコア(独自算出の注目度): 58.46706158310462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While visual-language models have profoundly linked features between texts and images, the incorporation of 3D modality data, such as point clouds and 3D Gaussians, further enables pretraining for 3D-related tasks, e.g., cross-modal retrieval, zero-shot classification, and scene recognition. As challenges remain in extracting 3D modal features and bridging the gap between different modalities, we propose TIGaussian, a framework that harnesses 3D Gaussian Splatting (3DGS) characteristics to strengthen cross-modality alignment through multi-branch 3DGS tokenizer and modality-specific 3D feature alignment strategies. Specifically, our multi-branch 3DGS tokenizer decouples the intrinsic properties of 3DGS structures into compact latent representations, enabling more generalizable feature extraction. To further bridge the modality gap, we develop a bidirectional cross-modal alignment strategies: a multi-view feature fusion mechanism that leverages diffusion priors to resolve perspective ambiguity in image-3D alignment, while a text-3D projection module adaptively maps 3D features to text embedding space for better text-3D alignment. Extensive experiments on various datasets demonstrate the state-of-the-art performance of TIGaussian in multiple tasks.
- Abstract(参考訳): 視覚言語モデルはテキストと画像の間に深く結びついているが、ポイントクラウドや3Dガウスのような3Dモダリティデータを組み込むことにより、例えば、クロスモーダル検索、ゼロショット分類、シーン認識といった3D関連タスクの事前トレーニングが可能になる。
TIGaussian(TIGaussian)は,多分岐3DGSトークンライザとモダリティ特異的な3D特徴アライメント戦略により,多分岐3DGSのアライメントを強化するための3Dガウススティング(3DGS)特性を利用するフレームワークである。
特に, マルチブランチ3DGSトークン化器は, 3DGS構造の固有の特性をコンパクトな潜在表現に分解し, より一般化可能な特徴抽出を可能にする。
画像3次元アライメントにおける視点のあいまいさを解決するために拡散先を利用する多視点特徴融合機構を,テキスト3次元プロジェクションモジュールはテキスト3次元アライメントを改善するために3次元特徴を適応的にテキスト3次元アライメント空間にマッピングする。
様々なデータセットに対する大規模な実験は、TIGaussianの最先端のパフォーマンスを複数のタスクで示す。
関連論文リスト
- Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。
従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。
我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文 参考訳(メタデータ) (2026-01-05T18:33:50Z) - Enhanced Cross-modal 3D Retrieval via Tri-modal Reconstruction [4.820576346277399]
クロスモーダルな3D検索は重要な課題であり、3Dとテキストのモダリティ間の双方向検索の実現を目指している。
マルチビュー画像と点雲を併用して3次元形状を共同で表現し,3次元アライメントを容易にすることを提案する。
本手法は, テキスト検索とテキスト検索の両方において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-02T08:29:42Z) - UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-25T05:10:22Z) - F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Aggregative Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また,学習した3次元表現において,クロスビューの一貫性を強制する自己教師付きサイクル集約的制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。
我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文 参考訳(メタデータ) (2024-12-26T09:54:25Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。