論文の概要: LidarCLIP or: How I Learned to Talk to Point Clouds
- arxiv url: http://arxiv.org/abs/2212.06858v1
- Date: Tue, 13 Dec 2022 19:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:38:17.424436
- Title: LidarCLIP or: How I Learned to Talk to Point Clouds
- Title(参考訳): LidarCLIP あるいは: 私がポイントクラウドに話しかけた方法
- Authors: Georg Hess, Adam Tonderski, Christoffer Petersson, Lennart Svensson,
Kalle {\AA}str\"om
- Abstract要約: LidarCLIPは、自動車のポイントクラウドから既存のCLIP埋め込みスペースへのマッピングである。
本稿では,LidarCLIPが画像検索と同等であることを示すことで,LidarCLIPの有効性を示す。
また、自然言語による基本的なライダー機能の調査ツールとしてLidarCLIPを使用します。
- 参考スコア(独自算出の注目度): 3.0623865942628594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Research connecting text and images has recently seen several breakthroughs,
with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection
between text and other visual modalities, such as lidar data, has received less
attention, prohibited by the lack of text-lidar datasets. In this work, we
propose LidarCLIP, a mapping from automotive point clouds to a pre-existing
CLIP embedding space. Using image-lidar pairs, we supervise a point cloud
encoder with the image CLIP embeddings, effectively relating text and lidar
data with the image domain as an intermediary. We show the effectiveness of
LidarCLIP by demonstrating that lidar-based retrieval is generally on par with
image-based retrieval, but with complementary strengths and weaknesses. By
combining image and lidar features, we improve upon both single-modality
methods and enable a targeted search for challenging detection scenarios under
adverse sensor conditions. We also use LidarCLIP as a tool to investigate
fundamental lidar capabilities through natural language. Finally, we leverage
our compatibility with CLIP to explore a range of applications, such as point
cloud captioning and lidar-to-image generation, without any additional
training. We hope LidarCLIP can inspire future work to dive deeper into
connections between text and point cloud understanding. Code and trained models
available at https://github.com/atonderski/lidarclip.
- Abstract(参考訳): テキストとイメージを接続する研究は、CLIP、DALL-E 2、Stable Diffusionといったモデルで、最近いくつかのブレークスルーがあった。
しかし、テキストとlidarデータのような他の視覚モダリティとの接続は、テキストライダーデータセットの欠如により、あまり注目されていない。
本稿では,自動車点雲から既存のCLIP埋め込み空間へのマッピングであるLidarCLIPを提案する。
画像ライダーペアを用いて,画像クリップ埋め込みを用いたポイントクラウドエンコーダを監督し,テキストとlidarデータを画像領域と中間領域に効果的に関連付ける。
lidarclipの有効性を示すために,lidarベースの検索は画像検索と同等であるが,強みと弱みは相補的であることを示す。
画像とライダーの機能を組み合わせることで,単一モードの手法を改良し,有害なセンサ条件下での課題検出シナリオを対象とする探索を可能にする。
また、自然言語による基本的なライダー機能の調査ツールとしてLidarCLIPを使用します。
最後に、CLIPとの互換性を活用して、追加のトレーニングなしで、ポイントクラウドキャプションやライダー対イメージ生成など、さまざまなアプリケーションを調査します。
LidarCLIPが将来、テキストとポイントクラウドの理解との関係を深く掘り下げられることを期待しています。
コードとトレーニングされたモデルはhttps://github.com/atonderski/lidarclip.comで入手できる。
関連論文リスト
- Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - ComCLIP: Training-Free Compositional Image and Text Matching [21.16438228904759]
コントラスト言語-画像事前訓練は画像とテキストのマッチングに優れたゼロショット性能を示した。
我々は新しいtextbftextittraining-free compositional CLIP model (ComCLIP) を提案する。
ComCLIPは、入力された画像を被写体、オブジェクト、アクションのサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成して、合成テキスト埋め込みとサブイメージ埋め込みに対する進化的なマッチングを実行する。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。