論文の概要: GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data
- arxiv url: http://arxiv.org/abs/2402.06198v2
- Date: Tue, 13 Feb 2024 15:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 12:04:28.891496
- Title: GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data
- Title(参考訳): GS-CLIP:実世界のデータから推定したコントラスト言語画像3Dのためのガウススティング
- Authors: Haoyuan Li, Yanpeng Zhou, Yihan Zeng, Hang Xu, Xiaodan Liang
- Abstract要約: ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
- 参考スコア(独自算出の注目度): 73.06536202251915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D Shape represented as point cloud has achieve advancements in multimodal
pre-training to align image and language descriptions, which is curial to
object identification, classification, and retrieval. However, the discrete
representations of point cloud lost the object's surface shape information and
creates a gap between rendering results and 2D correspondences. To address this
problem, we propose GS-CLIP for the first attempt to introduce 3DGS (3D
Gaussian Splatting) into multimodal pre-training to enhance 3D representation.
GS-CLIP leverages a pre-trained vision-language model for a learned common
visual and textual space on massive real world image-text pairs and then learns
a 3D Encoder for aligning 3DGS optimized per object. Additionally, a novel
Gaussian-Aware Fusion is proposed to extract and fuse global explicit feature.
As a general framework for language-image-3D pre-training, GS-CLIP is agnostic
to 3D backbone networks. Experiments on challenging shows that GS-CLIP
significantly improves the state-of-the-art, outperforming the previously best
results.
- Abstract(参考訳): ポイントクラウドとして表現された3d形状は、オブジェクトの識別、分類、検索にキュリアルな画像と言語の記述を調整するために、マルチモーダル事前学習の進歩を遂げた。
しかし、点雲の離散表現は物体の表面形状情報を失い、レンダリング結果と2次元対応の間にギャップを生じさせる。
この問題に対処するため、3DGS(3D Gaussian Splatting)をマルチモーダル事前学習に導入し、3D表現を強化する試みとしてGS-CLIPを提案する。
GS-CLIPは、大量の実世界の画像テキストペア上で学習された共通の視覚空間とテキスト空間に対して、事前学習された視覚言語モデルを利用して、オブジェクトごとに最適化された3DGSを調整するための3Dエンコーダを学習する。
さらに,グローバル明示的な特徴を抽出・融合するために,新しいガウス・アウェア融合が提案されている。
言語イメージ3D事前トレーニングの一般的なフレームワークとして、GS-CLIPは3Dバックボーンネットワークに依存しない。
挑戦的な実験では、GS-CLIPは最先端技術を大幅に改善し、これまでで最高の結果を上回った。
関連論文リスト
- OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。
我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文 参考訳(メタデータ) (2024-12-26T09:54:25Z) - GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs [33.74118487769923]
GSemSplatは,3次元ガウスに関連付けられた意味表現を,シーンごとの最適化や高密度画像収集,キャリブレーションなしに学習するフレームワークである。
本研究では,2次元空間における領域固有の意味的特徴と文脈認識的意味的特徴を両立させる二重機能アプローチを用いる。
論文 参考訳(メタデータ) (2024-12-22T09:06:58Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。