Fugu-MT 論文翻訳(概要): Frozen CLIP Model is An Efficient Point Cloud Backbone

論文の概要: Frozen CLIP Model is An Efficient Point Cloud Backbone

arxiv url: http://arxiv.org/abs/2212.04098v2
Date: Fri, 9 Dec 2022 03:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 15:04:10.295584
Title: Frozen CLIP Model is An Efficient Point Cloud Backbone
Title（参考訳）: Frozen CLIP Model - 効率的なポイントクラウドバックボーン
Authors: Xiaoshui Huang, Sheng Li, Wentao Qu, Tong He, Yifan Zuo, Wanli Ouyang
Abstract要約: 本稿では,凍ったCLIPモデルを用いて高品質のポイントクラウドモデルをトレーニングするための効率的なポイントクラウド学習(EPCL)を提案する。我々のEPCLは、2D-3Dデータをペア化せずに2D特徴とポイントクラウド特徴を意味的に整合させることで、2Dと3Dのモダリティを接続する。 3D検出、セマンティックセグメンテーション、分類、数ショット学習に関する総合的な実験は、2D CLIPモデルが効率的なポイントクラウドバックボーンであることを示している。
参考スコア（独自算出の注目度）: 83.44915413703315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pretraining-finetuning paradigm has demonstrated great success in NLP and 2D image fields because of the high-quality representation ability and transferability of their pretrained models. However, pretraining such a strong model is difficult in the 3D point cloud field since the training data is limited and point cloud collection is expensive. This paper introduces Efficient Point Cloud Learning (EPCL), an effective and efficient point cloud learner for directly training high-quality point cloud models with a frozen CLIP model. Our EPCL connects the 2D and 3D modalities by semantically aligning the 2D features and point cloud features without paired 2D-3D data. Specifically, the input point cloud is divided into a sequence of tokens and directly fed into the frozen CLIP model to learn point cloud representation. Furthermore, we design a task token to narrow the gap between 2D images and 3D point clouds. Comprehensive experiments on 3D detection, semantic segmentation, classification and few-shot learning demonstrate that the 2D CLIP model can be an efficient point cloud backbone and our method achieves state-of-the-art accuracy on both real-world and synthetic downstream tasks. Code will be available.
Abstract（参考訳）: プレトレーニングファインタニングのパラダイムは、高品質な表現能力と事前トレーニングされたモデルの転送性のため、NLPおよび2次元画像フィールドで大きな成功を収めている。しかし,3dポイントクラウド領域では,トレーニングデータに制限があり,ポイントクラウドの収集にコストがかかるため,事前学習は困難である。本稿では,凍ったCLIPモデルを用いて,高品質なクラウドモデルを直接訓練するための,効率的かつ効率的なポイントクラウド学習ツールであるEPCLを紹介する。我々のEPCLは、2D-3Dデータなしで2D特徴とポイントクラウド特徴を意味的に整合させることで、2Dと3Dのモダリティを接続します。具体的には、入力ポイントクラウドを一連のトークンに分割し、凍ったCLIPモデルに直接供給してポイントクラウド表現を学習する。さらに、2d画像と3dポイントクラウドの間のギャップを狭めるタスクトークンを設計した。 3次元検出,セマンティックセグメンテーション,分類,少数ショット学習に関する総合的な実験により,2次元CLIPモデルは効率的なポイントクラウドバックボーンとなり,本手法は実世界および合成下流の両方のタスクにおいて最先端の精度を実現する。コードは利用可能だ。

関連論文リスト

Occlusion-aware Text-Image-Point Cloud Pretraining for Open-World 3D Object Recognition [27.70464285941205]
ゼロショット3Dオブジェクト認識を実現するためのテキストイメージポイントクラウド事前学習手法を提案する。点雲に適した2ストリーム線形状態空間モデルであるDuoMambaについても紹介する。私たちのフレームワークで事前トレーニングを行うと、DuoMambaは現在の最先端メソッドを超え、レイテンシとFLOPを削減します。
論文参考訳（メタデータ） (2025-02-15T04:58:21Z)
P2P-Bridge: Diffusion Bridges for 3D Point Cloud Denoising [81.92854168911704]
私たちは、Diffusion Schr"odingerブリッジをポイントクラウドに適応させる新しいフレームワークを通じて、ポイントクラウドを飾るタスクに取り組みます。オブジェクトデータセットの実験では、P2P-Bridgeは既存のメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-08-29T08:00:07Z)
PointDifformer: Robust Point Cloud Registration With Neural Diffusion and Transformer [31.02661827570958]
ポイントクラウド登録は、3Dコンピュータビジョンにおける基本的な技術であり、グラフィック、自律運転、ロボット工学の応用がある。本稿では,グラフニューラル偏微分方程式(PDE)と熱カーネルシグネチャを利用するロバストポイントクラウド登録手法を提案する。 3Dポイントクラウドデータセットの実証実験により、我々のアプローチは、ポイントクラウド登録のための最先端のパフォーマンスを達成するだけでなく、付加的なノイズや3D形状の摂動に対してより堅牢性を示すことを示した。
論文参考訳（メタデータ） (2024-04-22T09:50:12Z)
ComPC: Completing a 3D Point Cloud with 2D Diffusion Priors [52.72867922938023]
センサーを通して直接オブジェクトから収集される3Dポイント雲は、自己閉塞のため、しばしば不完全である。トレーニングを必要とせずに、未確認のカテゴリにまたがる部分点雲を完結させるテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-10T08:02:17Z)
Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。 textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。 SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文参考訳（メタデータ） (2024-03-02T08:18:57Z)
PRED: Pre-training via Semantic Rendering on LiDAR Point Clouds [18.840000859663153]
本稿では,屋外点雲のための画像支援事前学習フレームワークPreDを提案する。我々のフレームワークの主な構成要素は、Birds-Eye-View (BEV) 機能マップ条件付きセマンティックレンダリングである。我々は、高マスキング比のポイントワイドマスクを組み込むことにより、モデルの性能をさらに向上させる。
論文参考訳（メタデータ） (2023-11-08T07:26:09Z)
2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision [36.282611420496416]
本稿では,2つのエンコーダと1つのデコーダを備えた変圧器モデルを提案する。デコーダは2D-3Dクロスアテンションを実装し、暗黙の2Dおよび3D特徴融合を実行する。実験により、既存の弱教師付きポイントクラウドセグメンテーション法に対して好適に動作することが示された。
論文参考訳（メタデータ） (2023-10-19T15:12:44Z)
Point2Vec for Self-Supervised Representation Learning on Point Clouds [66.53955515020053]
Data2vecをポイントクラウド領域に拡張し、いくつかのダウンストリームタスクで推奨される結果を報告します。我々は、ポイントクラウド上でData2vecライクな事前トレーニングの可能性を解放するpoint2vecを提案する。
論文参考訳（メタデータ） (2023-03-29T10:08:29Z)
Masked Autoencoders in 3D Point Cloud Representation Learning [7.617783375837524]
3Dポイントクラウド表現学習におけるマスク付きオートエンコーダを提案する(略してMAE3D)。最初はインプットポイントクラウドをパッチに分割し、その一部をマスクし、次にPatch Embedding Moduleを使って未成熟のパッチの特徴を抽出しました。総合的な実験により、ポイントクラウドパッチからMAE3Dによって抽出された局所的特徴が下流分類タスクに有用であることが示されている。
論文参考訳（メタデータ） (2022-07-04T16:13:27Z)
Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文参考訳（メタデータ） (2022-05-28T11:22:53Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)
Point Cloud Pre-training by Mixing and Disentangling [35.18101910728478]
Mixing and Disentangling (MD)は、ポイントクラウド事前トレーニングのための自己教師付き学習アプローチである。我々は,エンコーダ+我々の(MD)が,スクラッチから訓練したエンコーダを著しく上回り,迅速に収束することを示す。この自己教師型学習によるポイントクラウドの試みが、大規模ラベル付きデータへの深い学習モデル依存を減らす道を開くことを願っている。
論文参考訳（メタデータ） (2021-09-01T15:52:18Z)
SSPU-Net: Self-Supervised Point Cloud Upsampling via Differentiable Rendering [21.563862632172363]
地中真理を使わずに高密度の点雲を生成するための自己教師付き点雲アップサンプリングネットワーク(SSPU-Net)を提案する。これを実現するために,入力スパース点雲と高密度点雲との整合性を利用して画像の形状と描画を行う。
論文参考訳（メタデータ） (2021-08-01T13:26:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。