論文の概要: Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations?
- arxiv url: http://arxiv.org/abs/2412.08973v1
- Date: Thu, 12 Dec 2024 06:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:00.864253
- Title: Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations?
- Title(参考訳): コントラスト蒸留は総合的な3次元表現を学習するのに十分か?
- Authors: Yifan Zhang, Junhui Hou,
- Abstract要約: クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
- 参考スコア(独自算出の注目度): 55.99654128127689
- License:
- Abstract: Cross-modal contrastive distillation has recently been explored for learning effective 3D representations. However, existing methods focus primarily on modality-shared features, neglecting the modality-specific features during the pre-training process, which leads to suboptimal representations. In this paper, we theoretically analyze the limitations of current contrastive methods for 3D representation learning and propose a new framework, namely CMCR, to address these shortcomings. Our approach improves upon traditional methods by better integrating both modality-shared and modality-specific features. Specifically, we introduce masked image modeling and occupancy estimation tasks to guide the network in learning more comprehensive modality-specific features. Furthermore, we propose a novel multi-modal unified codebook that learns an embedding space shared across different modalities. Besides, we introduce geometry-enhanced masked image modeling to further boost 3D representation learning. Extensive experiments demonstrate that our method mitigates the challenges faced by traditional approaches and consistently outperforms existing image-to-LiDAR contrastive distillation methods in downstream tasks. Code will be available at https://github.com/Eaphan/CMCR.
- Abstract(参考訳): クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
しかし、既存の手法は主にモダリティ共有の特徴に焦点をあて、事前学習過程においてモダリティ固有の特徴を無視し、それが準最適表現に繋がる。
本稿では,3次元表現学習における現在のコントラスト手法の限界を理論的に解析し,これらの欠点に対処する新しいフレームワークCMCRを提案する。
提案手法は,モダリティ共有機能とモダリティ特化機能の両方をよりよく統合することにより,従来の手法を改善する。
具体的には、より包括的なモダリティ特化特徴の学習において、マスク付き画像モデリングと占有率推定タスクを導入し、ネットワークをガイドする。
さらに,異なるモダリティ間で共有される埋め込み空間を学習する,新しいマルチモーダル統一コードブックを提案する。
さらに,3次元表現学習をさらに促進するために,幾何強化されたマスク付き画像モデリングを導入する。
大規模な実験により, 従来のアプローチによる課題を緩和し, 下流タスクにおける既存の画像対LiDARのコントラスト蒸留法を一貫して上回る結果が得られた。
コードはhttps://github.com/Eaphan/CMCR.comで入手できる。
関連論文リスト
- 3D Vision-Language Gaussian Splatting [29.047044145499036]
マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。
本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。
また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
論文 参考訳(メタデータ) (2024-10-10T03:28:29Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - DNAct: Diffusion Guided Multi-Task 3D Policy Learning [17.566655138104785]
DNActは言語条件のマルチタスクポリシーフレームワークである。
ニューラルネットワークによる事前トレーニングと拡散トレーニングを統合し、アクションシーケンス空間におけるマルチモーダル学習を強制する。
論文 参考訳(メタデータ) (2024-03-07T00:09:07Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - 3D-Augmented Contrastive Knowledge Distillation for Image-based Object
Pose Estimation [4.415086501328683]
トレーニングプロセスでは3D形状が活用され、テストは依然として純粋に画像ベースである。
マルチモーダルモデルから画像ベースモデルへ3次元拡張画像表現を効果的に転送する新しいコントラスト型知識蒸留フレームワークを提案する。
我々は,既存のカテゴリに依存しない画像ベース手法と比較して,最先端の成果を大きなマージンで報告した。
論文 参考訳(メタデータ) (2022-06-02T16:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。