論文の概要: Learning Robust 3D Representation from CLIP via Dual Denoising
- arxiv url: http://arxiv.org/abs/2407.00905v1
- Date: Mon, 1 Jul 2024 02:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 01:07:34.832384
- Title: Learning Robust 3D Representation from CLIP via Dual Denoising
- Title(参考訳): デュアルデノイングによるCLIPからのロバスト3次元表現の学習
- Authors: Shuqing Luo, Bowen Qu, Wei Gao,
- Abstract要約: 私たちはCLIPから堅牢で一般化された3D表現を学習するための新しいフレームワークであるDual Denoisingを提案する。
3D事前トレーニングのための、デノナイジングベースのプロキシタスクと、新たな機能デノナイジングネットワークを組み合わせたものだ。
実験により,本モデルは3次元学習ネットワークの表現学習性能と対角的ロバスト性を効果的に向上できることが示された。
- 参考スコア(独自算出の注目度): 4.230780744307392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore a critical yet under-investigated issue: how to learn robust and well-generalized 3D representation from pre-trained vision language models such as CLIP. Previous works have demonstrated that cross-modal distillation can provide rich and useful knowledge for 3D data. However, like most deep learning models, the resultant 3D learning network is still vulnerable to adversarial attacks especially the iterative attack. In this work, we propose Dual Denoising, a novel framework for learning robust and well-generalized 3D representations from CLIP. It combines a denoising-based proxy task with a novel feature denoising network for 3D pre-training. Additionally, we propose utilizing parallel noise inference to enhance the generalization of point cloud features under cross domain settings. Experiments show that our model can effectively improve the representation learning performance and adversarial robustness of the 3D learning network under zero-shot settings without adversarial training. Our code is available at https://github.com/luoshuqing2001/Dual_Denoising.
- Abstract(参考訳): 本稿では,CLIPのような事前学習された視覚言語モデルから,頑健で汎用的な3D表現を学習する方法について検討する。
従来の研究は、クロスモーダル蒸留が3Dデータに豊富で有用な知識を提供することを示した。
しかし、多くのディープラーニングモデルと同様に、結果の3D学習ネットワークは、敵攻撃、特に反復攻撃に対して依然として脆弱である。
本稿では,CLIPから堅牢で汎用的な3D表現を学習するための新しいフレームワークであるDual Denoisingを提案する。
3D事前トレーニングのための、デノナイジングベースのプロキシタスクと、新たな機能デノナイジングネットワークを組み合わせたものだ。
さらに,クロスドメイン設定下での点雲特徴の一般化を促進するために,並列雑音推定を利用する手法を提案する。
実験により,本モデルは,ゼロショット設定下での3次元学習ネットワークの表現学習性能と対角ロバスト性を,対角訓練なしで効果的に向上できることが示された。
私たちのコードはhttps://github.com/luoshuqing2001/Dual_Denoising.comで公開されています。
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Masked Scene Contrast: A Scalable Framework for Unsupervised 3D
Representation Learning [37.155772047656114]
Masked Scene Contrast (MSC)フレームワークは、より効率的かつ効果的に包括的な3D表現を抽出することができる。
MSCはまた、複数のデータセットにわたる大規模な3D事前トレーニングを可能にする。
論文 参考訳(メタデータ) (2023-03-24T17:59:58Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - PointACL:Adversarial Contrastive Learning for Robust Point Clouds
Representation under Adversarial Attack [73.3371797787823]
逆比較学習(Adversarial contrastive learning, ACL)は、事前学習されたモデルの堅牢性を改善する効果的な方法と考えられている。
本稿では,自己指導型コントラスト学習フレームワークを逆向きに学習するために,ロバストな認識損失関数を提案する。
提案手法であるPointACLを,複数のデータセットを用いた3次元分類と3次元分割を含む下流タスクで検証する。
論文 参考訳(メタデータ) (2022-09-14T22:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。