論文の概要: Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence
- arxiv url: http://arxiv.org/abs/2605.19727v1
- Date: Tue, 19 May 2026 12:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.313413
- Title: Tango3D: Towards Alignment for Global and Local 2D-3D Correspondence
- Title(参考訳): Tango3D:グローバルおよびローカル2D-3D対応のためのアライメントを目指す
- Authors: Zebin He, Mingxin Yang, Shuhui Yang, Hanxiao Sun, Xintong Han, Chunchao Guo, Wenhan Luo,
- Abstract要約: 我々は,高密度対応とグローバル検索を統一する基盤モデルであるTango3Dを提案する。
画像の2次元パッチへのエンコードや,雲の3次元トークンへのポインティングには,幾何学的に認識された2次元視覚バックボーンと,事前訓練された3次元VAEを用いる。
実験により, 競合するグローバル検索を維持しつつ, オブジェクトレベルの画素間アライメントを実現することができた。
- 参考スコア(独自算出の注目度): 28.712695548782037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing 3D foundation models typically align point clouds to frozen vision-language spaces like CLIP, which achieve strong cross-modal retrieval by compressing 3D shape into a global vector. However, this global-only alignment cannot establish fine-grained pixel-to-point correspondence. To solve this, we present Tango3D, a foundation model that unifies dense correspondence and global retrieval. We use a geometry-aware 2D visual backbone and a pretrained 3D VAE to encode images into 2D patches and point clouds into 3D tokens. These are mapped into a single shared space to achieve both local pixel-to-point alignment and global semantic alignment. To stabilize the joint learning of dense and global objectives, we introduce a three-stage progressive training strategy. Experiments show our model successfully achieves object-level pixel-to-point alignment while maintaining competitive global retrieval, a joint capability not offered by existing 3D foundation models. By establishing a fine-grained alignment feature space, Tango3D injects rich semantics into purely geometric 3D tokens, paving the way for a wide range of dense 3D downstream tasks.
- Abstract(参考訳): 既存の3Dファウンデーションモデルは、通常、点雲をCLIPのような凍った視覚言語空間に合わせる。
しかし、このグローバルのみのアライメントは、微細なピクセル間対応を確立できない。
そこで本研究では,高密度対応とグローバル検索を統一する基盤モデルであるTango3Dを提案する。
画像の2次元パッチへのエンコードや,雲の3次元トークンへのポインティングには,幾何学的に認識された2次元視覚バックボーンと,事前訓練された3次元VAEを用いる。
これらは単一の共有空間にマッピングされ、局所的なピクセル間アライメントとグローバルなセマンティックアライメントの両方を達成する。
密集・大域的目標の連立学習を安定させるために,三段階進行訓練戦略を導入する。
実験により,既存の3次元基礎モデルでは提供されない連立能力である,競争力のあるグローバル検索を維持しつつ,オブジェクトレベルの画素間アライメントを実現することができた。
微粒なアライメント特徴空間を確立することで、Tango3Dはリッチなセマンティクスを純粋に幾何学的な3Dトークンに注入し、幅広い3D下流タスクへの道を開く。
関連論文リスト
- Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation [15.607138815246387]
Omni123は、テキストから2D、テキストから3D生成を単一の自動回帰フレームワークに統合する3Dネイティブ基盤モデルである。
実験により、Omni123はテキストガイドによる3D生成と編集を大幅に改善し、マルチモーダルな3Dワールドモデルへのスケーラブルなパスを示す。
論文 参考訳(メタデータ) (2026-04-02T17:29:38Z) - OneWorld: Taming Scene Generation with 3D Unified Representation Autoencoder [90.8453349494245]
本研究では,コヒーレントな3次元表現空間内で直接拡散を行うOneWorldを提案する。
OneWorldは、最先端の2Dベースの方法と比較して、クロスビューの一貫性に優れた高品質な3Dシーンを生成する。
論文 参考訳(メタデータ) (2026-03-17T03:43:37Z) - Terra: Explorable Native 3D World Model with Point Latents [74.90179419859415]
本稿では,本質的な3次元潜伏空間における探索可能な環境を表現・生成する,ネイティブな3次元世界モデルTerraを提案する。
具体的には、3次元入力を潜在点表現に符号化する新しい点対ガウス変分オートエンコーダ(P2G-VAE)を提案する。
次に、潜伏点表現を生成するためのスパース点フローマッチングネットワーク(SPFlow)を導入し、同時に潜伏点の位置と特徴を識別する。
論文 参考訳(メタデータ) (2025-10-16T17:59:56Z) - UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-25T05:10:22Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。