Fugu-MT 論文翻訳(概要): CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting

論文の概要: CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting

arxiv url: http://arxiv.org/abs/2412.19142v1
Date: Thu, 26 Dec 2024 09:54:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.102487
Title: CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting
Title（参考訳）: CLIP-GS:3次元ガウススプラッティングによる視覚言語表現の統合
Authors: Siyu Jiao, Haoye Dong, Yuyang Yin, Zequn Jie, Yinlong Qian, Yao Zhao, Humphrey Shi, Yunchao Wei,
Abstract要約: 3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
参考スコア（独自算出の注目度）: 88.24743308058441
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works in 3D multimodal learning have made remarkable progress. However, typically 3D multimodal models are only capable of handling point clouds. Compared to the emerging 3D representation technique, 3D Gaussian Splatting (3DGS), the spatially sparse point cloud cannot depict the texture information of 3D objects, resulting in inferior reconstruction capabilities. This limitation constrains the potential of point cloud-based 3D multimodal representation learning. In this paper, we present CLIP-GS, a novel multimodal representation learning framework grounded in 3DGS. We introduce the GS Tokenizer to generate serialized gaussian tokens, which are then processed through transformer layers pre-initialized with weights from point cloud models, resulting in the 3DGS embeddings. CLIP-GS leverages contrastive loss between 3DGS and the visual-text embeddings of CLIP, and we introduce an image voting loss to guide the directionality and convergence of gradient optimization. Furthermore, we develop an efficient way to generate triplets of 3DGS, images, and text, facilitating CLIP-GS in learning unified multimodal representations. Leveraging the well-aligned multimodal representations, CLIP-GS demonstrates versatility and outperforms point cloud-based models on various 3D tasks, including multimodal retrieval, zero-shot, and few-shot classification.
Abstract（参考訳）: 近年の3次元マルチモーダル学習の研究は目覚ましい進歩を遂げている。しかし、一般的に3次元マルチモーダルモデルは点雲のみを扱うことができる。新たな3D表現技術である3D Gaussian Splatting (3DGS)と比較して、空間的に疎い点雲は3Dオブジェクトのテクスチャ情報を表現できないため、再現性が劣る。この制限は、ポイントクラウドベースの3次元マルチモーダル表現学習の可能性を制限する。本稿では,3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。我々は,GS Tokenizerを導入し,連続化ガウストークンを生成し,それを点雲モデルから重み付けしたトランスフォーマー層を通じて処理することにより,3DGS埋め込みを実現する。 CLIP-GSは、3DGSとCLIPの視覚テキスト埋め込みの対比的損失を活用し、勾配最適化の方向性と収束を導くために画像投票損失を導入する。さらに,3DGS,画像,テキストの3DGSを効率よく生成し,CLIP-GSによるマルチモーダル表現の学習を容易にする方法を開発した。適切に整合したマルチモーダル表現を活用することで、CLIP-GSは、マルチモーダル検索、ゼロショット、少数ショット分類など、さまざまな3Dタスクにおいて、汎用性とポイントクラウドベースのモデルよりも優れたパフォーマンスを示す。

関連論文リスト

Interpretable Single-View 3D Gaussian Splatting using Unsupervised Hierarchical Disentangled Representation Learning [46.85417907244265]
本稿では,粗い3Dセマンティクスと微粒な3Dセマンティクスの両方を発見するために,3DisGSと呼ばれる解釈可能な単一ビュー3DGSフレームワークを提案する。本モデルでは,高品質かつ高速な再構成を保ちながら3次元のアンタングル化を実現する。
論文参考訳（メタデータ） (2025-04-05T14:42:13Z)
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文参考訳（メタデータ） (2025-02-25T05:10:22Z)
Hyperbolic Contrastive Learning for Hierarchical 3D Point Cloud Embedding [21.50985015159827]
双曲型マルチモーダルコントラスト事前学習における3Dポイントクラウドのモダリティを拡張する。また,階層型3次元埋め込み学習のための細分化,モダリティギャップ,アライメントレギュレータについても検討する。
論文参考訳（メタデータ） (2025-01-04T13:27:18Z)
GS-PT: Exploiting 3D Gaussian Splatting for Comprehensive Point Cloud Understanding via Self-supervised Learning [15.559369116540097]
ポイントクラウドの自己教師型学習は、ラベルのない3Dデータを活用して、手動のアノテーションに頼ることなく意味のある表現を学習することを目的としている。本稿では,3Dガウススプラッティング(3DGS)をポイントクラウドの自己教師型学習に初めて統合したGS-PTを提案する。我々のパイプラインは、トランスフォーマーを自己教師付き事前学習のバックボーンとして利用し、3DGSによる新しいコントラスト学習タスクを導入している。
論文参考訳（メタデータ） (2024-09-08T03:46:47Z)
LP-3DGS: Learning to Prune 3D Gaussian Splatting [71.97762528812187]
本稿では,トレーニング可能な2値マスクを重要度に応用し,最適プルーニング比を自動的に検出する3DGSを提案する。実験の結果,LP-3DGSは効率と高品質の両面において良好なバランスを保っていることがわかった。
論文参考訳（メタデータ） (2024-05-29T05:58:34Z)
GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。 GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文参考訳（メタデータ） (2024-02-09T05:46:47Z)
ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文参考訳（メタデータ） (2022-12-10T01:34:47Z)
PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文参考訳（メタデータ） (2022-12-03T06:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。