論文の概要: LidarCLIP or: How I Learned to Talk to Point Clouds
- arxiv url: http://arxiv.org/abs/2212.06858v3
- Date: Tue, 2 May 2023 13:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 17:37:34.447723
- Title: LidarCLIP or: How I Learned to Talk to Point Clouds
- Title(参考訳): LidarCLIP あるいは: 私がポイントクラウドに話しかけた方法
- Authors: Georg Hess, Adam Tonderski, Christoffer Petersson, Kalle {\AA}str\"om,
Lennart Svensson
- Abstract要約: LidarCLIPは、自動車のポイントクラウドから既存のCLIP埋め込みスペースへのマッピングである。
本稿では,LidarCLIPが画像検索と同等であることを示すことで,LidarCLIPの有効性を示す。
また、ゼロショット分類についても検討し、LidarCLIPは、ポイントクラウドにCLIPを使用する既存の試みを、大きなマージンで上回っていることを示す。
- 参考スコア(独自算出の注目度): 3.0623865942628594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Research connecting text and images has recently seen several breakthroughs,
with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection
between text and other visual modalities, such as lidar data, has received less
attention, prohibited by the lack of text-lidar datasets. In this work, we
propose LidarCLIP, a mapping from automotive point clouds to a pre-existing
CLIP embedding space. Using image-lidar pairs, we supervise a point cloud
encoder with the image CLIP embeddings, effectively relating text and lidar
data with the image domain as an intermediary. We show the effectiveness of
LidarCLIP by demonstrating that lidar-based retrieval is generally on par with
image-based retrieval, but with complementary strengths and weaknesses. By
combining image and lidar features, we improve upon both single-modality
methods and enable a targeted search for challenging detection scenarios under
adverse sensor conditions. We also explore zero-shot classification and show
that LidarCLIP outperforms existing attempts to use CLIP for point clouds by a
large margin. Finally, we leverage our compatibility with CLIP to explore a
range of applications, such as point cloud captioning and lidar-to-image
generation, without any additional training. Code and pre-trained models are
available at https://github.com/atonderski/lidarclip.
- Abstract(参考訳): テキストとイメージを接続する研究は、CLIP、DALL-E 2、Stable Diffusionといったモデルで、最近いくつかのブレークスルーがあった。
しかし、テキストとlidarデータのような他の視覚モダリティとの接続は、テキストライダーデータセットの欠如により、あまり注目されていない。
本稿では,自動車点雲から既存のCLIP埋め込み空間へのマッピングであるLidarCLIPを提案する。
画像ライダーペアを用いて,画像クリップ埋め込みを用いたポイントクラウドエンコーダを監督し,テキストとlidarデータを画像領域と中間領域に効果的に関連付ける。
lidarclipの有効性を示すために,lidarベースの検索は画像検索と同等であるが,強みと弱みは相補的であることを示す。
画像とライダーの機能を組み合わせることで,単一モードの手法を改良し,有害なセンサ条件下での課題検出シナリオを対象とする探索を可能にする。
また、ゼロショット分類についても検討し、LidarCLIPは、ポイントクラウドにCLIPを使用する既存の試みを、大きなマージンで上回っていることを示す。
最後に、CLIPとの互換性を活用して、追加のトレーニングなしで、ポイントクラウドキャプションやライダー対イメージ生成など、さまざまなアプリケーションを調査します。
コードと事前訓練されたモデルはhttps://github.com/atonderski/lidarclip.comで入手できる。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - CLIP-based Point Cloud Classification via Point Cloud to Image Translation [19.836264118079573]
Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。
本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
論文 参考訳(メタデータ) (2024-08-07T04:50:05Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。