論文の概要: Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval
- arxiv url: http://arxiv.org/abs/2408.05711v1
- Date: Sun, 11 Aug 2024 07:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:57:51.955581
- Title: Contrastive masked auto-encoders based self-supervised hashing for 2D image and 3D point cloud cross-modal retrieval
- Title(参考訳): マスク付き自己エンコーダを用いた2次元画像と3次元点群クロスモーダル検索のための自己教師型ハッシュ
- Authors: Rukai Wei, Heng Cui, Yu Liu, Yufeng Hou, Yanzhao Xie, Ke Zhou,
- Abstract要約: 2D画像と3Dポイントクラウドデータの相互ハッシュ化は、現実世界の検索システムにおいてますます懸念される。
画像とポイントクラウドデータ間の検索のために,コントラッシブマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
- 参考スコア(独自算出の注目度): 5.965791109321719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implementing cross-modal hashing between 2D images and 3D point-cloud data is a growing concern in real-world retrieval systems. Simply applying existing cross-modal approaches to this new task fails to adequately capture latent multi-modal semantics and effectively bridge the modality gap between 2D and 3D. To address these issues without relying on hand-crafted labels, we propose contrastive masked autoencoders based self-supervised hashing (CMAH) for retrieval between images and point-cloud data. We start by contrasting 2D-3D pairs and explicitly constraining them into a joint Hamming space. This contrastive learning process ensures robust discriminability for the generated hash codes and effectively reduces the modality gap. Moreover, we utilize multi-modal auto-encoders to enhance the model's understanding of multi-modal semantics. By completing the masked image/point-cloud data modeling task, the model is encouraged to capture more localized clues. In addition, the proposed multi-modal fusion block facilitates fine-grained interactions among different modalities. Extensive experiments on three public datasets demonstrate that the proposed CMAH significantly outperforms all baseline methods.
- Abstract(参考訳): 2D画像と3Dポイントクラウドデータ間のクロスモーダルハッシュの実装は、現実世界の検索システムにおいて懸念が高まっている。
既存のクロスモーダルなアプローチをこの新しいタスクに適用するだけで、潜在マルチモーダルなセマンティクスを適切に捉えることができず、2Dと3Dの間のモダリティギャップを効果的に橋渡しする。
手作りのラベルを頼らずにこれらの問題に対処するため,画像とポイントクラウドデータ間の検索にマスク付きオートエンコーダを用いた自己教師型ハッシュ(CMAH)を提案する。
まず、2D-3D対を対比し、それらを共同ハミング空間に明示的に制約することから始めます。
この対照的な学習プロセスは、生成されたハッシュコードの堅牢な識別性を保証し、モダリティギャップを効果的に低減する。
さらに,マルチモーダルなセマンティクスの理解を深めるために,マルチモーダルなオートエンコーダを利用する。
マスクされたイメージ/ポイントクラウドデータモデリングタスクを完了させることで、より局所的な手がかりを捉えることが推奨される。
さらに、提案したマルチモーダル融合ブロックは、異なるモーダル間のきめ細かい相互作用を促進する。
3つの公開データセットに対する大規模な実験は、提案されたCMAHがすべてのベースライン法を大幅に上回っていることを示している。
関連論文リスト
- Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for
2D image and video understanding [5.989397492717352]
M$3$3D ($underlineM$ulti-$underlineM$odal $underlineM$asked $underline3D$) はマルチモーダルマスキングオートエンコーダをベースとする。
我々は,Masked Image Modeling(MIM)とコントラスト学習という,自己教師型学習フレームワークを統合した。
実験の結果、M$3$3D は ScanNet, NYUv2, UCF-101, OR-AR における最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-09-26T23:52:09Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving [15.36416000750147]
マルチモーダルな3次元セマンティックセグメンテーションモデル(MSeg3D)を提案する。
MSeg3Dは依然として堅牢性を示し、LiDARのみのベースラインを改善している。
論文 参考訳(メタデータ) (2023-03-15T13:13:03Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - 2DPASS: 2D Priors Assisted Semantic Segmentation on LiDAR Point Clouds [18.321397768570154]
本稿では, 2DPASS (2D Priors Assisted Semantic) を提案する。
2DPASSは、マルチモーダルデータからよりリッチなセマンティクスと構造情報を取得し、それをオンラインで3Dネットワークに蒸留する。
2つの大規模ベンチマークで最先端を達成している。
論文 参考訳(メタデータ) (2022-07-10T06:52:09Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。