論文の概要: Hyperbolic Contrastive Learning for Hierarchical 3D Point Cloud Embedding
- arxiv url: http://arxiv.org/abs/2501.02285v2
- Date: Tue, 07 Jan 2025 13:38:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 12:28:57.681349
- Title: Hyperbolic Contrastive Learning for Hierarchical 3D Point Cloud Embedding
- Title(参考訳): 階層型3次元点雲埋め込みのための双曲的コントラスト学習
- Authors: Yingjie Liu, Pengyu Zhang, Ziyao He, Mingsong Chen, Xuan Tang, Xian Wei,
- Abstract要約: 双曲型マルチモーダルコントラスト事前学習における3Dポイントクラウドのモダリティを拡張する。
また,階層型3次元埋め込み学習のための細分化,モダリティギャップ,アライメントレギュレータについても検討する。
- 参考スコア(独自算出の注目度): 21.50985015159827
- License:
- Abstract: Hyperbolic spaces allow for more efficient modeling of complex, hierarchical structures, which is particularly beneficial in tasks involving multi-modal data. Although hyperbolic geometries have been proven effective for language-image pre-training, their capabilities to unify language, image, and 3D Point Cloud modalities are under-explored. We extend the 3D Point Cloud modality in hyperbolic multi-modal contrastive pre-training. Additionally, we explore the entailment, modality gap, and alignment regularizers for learning hierarchical 3D embeddings and facilitating the transfer of knowledge from both Text and Image modalities. These regularizers enable the learning of intra-modal hierarchy within each modality and inter-modal hierarchy across text, 2D images, and 3D Point Clouds. Experimental results demonstrate that our proposed training strategy yields an outstanding 3D Point Cloud encoder, and the obtained 3D Point Cloud hierarchical embeddings significantly improve performance on various downstream tasks.
- Abstract(参考訳): 双曲空間は複雑で階層的な構造のより効率的なモデリングを可能にし、これは特にマルチモーダルデータを含むタスクにおいて有益である。
ハイパーボリックジオメトリは、言語イメージの事前学習に有効であることが証明されているが、言語、画像、および3Dポイントクラウドのモダリティを統一する能力は、まだ探索されていない。
双曲型マルチモーダルコントラスト事前学習における3Dポイントクラウドのモダリティを拡張する。
さらに、階層的な3D埋め込みの学習と、テキストと画像の両方のモダリティからの知識の伝達を容易にするために、細部、モダリティギャップ、アライメントレギュレータについて検討する。
これらの正規化器は、テキスト、2D画像、および3Dポイントクラウド間のモダリティ内階層とモダリティ間階層の学習を可能にする。
実験結果から,提案手法は優れた3Dポイントクラウドエンコーダであり,得られた3Dポイントクラウド階層埋め込みは下流タスクの性能を著しく向上させることがわかった。
関連論文リスト
- Pic@Point: Cross-Modal Learning by Local and Global Point-Picture Correspondence [0.0]
構造的2D-3D対応に基づく効果的なコントラスト学習手法であるPic@Pointを提案する。
我々は,意味的および文脈的知識に富んだイメージキューを活用して,ポイントクラウド表現のガイド信号を提供する。
論文 参考訳(メタデータ) (2024-10-12T12:43:41Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - CLR-GAM: Contrastive Point Cloud Learning with Guided Augmentation and
Feature Mapping [12.679625717350113]
本稿では、効率的な動的探索戦略のためのガイド拡張(GA)を備えた対照的な学習ベースのフレームワークであるCLR-GAMを提案する。
提案手法がシミュレーションおよび実世界の3Dポイントクラウドデータセット上で最先端のパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-28T04:38:52Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。