Fugu-MT 論文翻訳(概要): LidarCLIP or: How I Learned to Talk to Point Clouds

論文の概要: LidarCLIP or: How I Learned to Talk to Point Clouds

arxiv url: http://arxiv.org/abs/2212.06858v1
Date: Tue, 13 Dec 2022 19:02:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-15 14:38:17.424436
Title: LidarCLIP or: How I Learned to Talk to Point Clouds
Title（参考訳）: LidarCLIP あるいは: 私がポイントクラウドに話しかけた方法
Authors: Georg Hess, Adam Tonderski, Christoffer Petersson, Lennart Svensson, Kalle {\AA}str\"om
Abstract要約: LidarCLIPは、自動車のポイントクラウドから既存のCLIP埋め込みスペースへのマッピングである。本稿では,LidarCLIPが画像検索と同等であることを示すことで,LidarCLIPの有効性を示す。また、自然言語による基本的なライダー機能の調査ツールとしてLidarCLIPを使用します。
参考スコア（独自算出の注目度）: 3.0623865942628594
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Research connecting text and images has recently seen several breakthroughs, with models like CLIP, DALL-E 2, and Stable Diffusion. However, the connection between text and other visual modalities, such as lidar data, has received less attention, prohibited by the lack of text-lidar datasets. In this work, we propose LidarCLIP, a mapping from automotive point clouds to a pre-existing CLIP embedding space. Using image-lidar pairs, we supervise a point cloud encoder with the image CLIP embeddings, effectively relating text and lidar data with the image domain as an intermediary. We show the effectiveness of LidarCLIP by demonstrating that lidar-based retrieval is generally on par with image-based retrieval, but with complementary strengths and weaknesses. By combining image and lidar features, we improve upon both single-modality methods and enable a targeted search for challenging detection scenarios under adverse sensor conditions. We also use LidarCLIP as a tool to investigate fundamental lidar capabilities through natural language. Finally, we leverage our compatibility with CLIP to explore a range of applications, such as point cloud captioning and lidar-to-image generation, without any additional training. We hope LidarCLIP can inspire future work to dive deeper into connections between text and point cloud understanding. Code and trained models available at https://github.com/atonderski/lidarclip.
Abstract（参考訳）: テキストとイメージを接続する研究は、CLIP、DALL-E 2、Stable Diffusionといったモデルで、最近いくつかのブレークスルーがあった。しかし、テキストとlidarデータのような他の視覚モダリティとの接続は、テキストライダーデータセットの欠如により、あまり注目されていない。本稿では,自動車点雲から既存のCLIP埋め込み空間へのマッピングであるLidarCLIPを提案する。画像ライダーペアを用いて,画像クリップ埋め込みを用いたポイントクラウドエンコーダを監督し,テキストとlidarデータを画像領域と中間領域に効果的に関連付ける。 lidarclipの有効性を示すために,lidarベースの検索は画像検索と同等であるが,強みと弱みは相補的であることを示す。画像とライダーの機能を組み合わせることで,単一モードの手法を改良し,有害なセンサ条件下での課題検出シナリオを対象とする探索を可能にする。また、自然言語による基本的なライダー機能の調査ツールとしてLidarCLIPを使用します。最後に、CLIPとの互換性を活用して、追加のトレーニングなしで、ポイントクラウドキャプションやライダー対イメージ生成など、さまざまなアプリケーションを調査します。 LidarCLIPが将来、テキストとポイントクラウドの理解との関係を深く掘り下げられることを期待しています。コードとトレーニングされたモデルはhttps://github.com/atonderski/lidarclip.comで入手できる。

関連論文リスト

SuperCLIP: CLIP with Simple Classification Supervision [88.86549733903314]
Contrastive Language-Image Pretrainingは、画像とテキストを共有埋め込み空間に整列させることにより、視覚言語タスクの強力な一般化を実現する。近年,CLIP様モデルでは,テキスト中の微細なセマンティック信号が依然として使われていないことが報告されている。分類に基づく教師付きコントラスト学習のフレームワークであるSuperCLIPを提案する。
論文参考訳（メタデータ） (2025-12-16T15:11:53Z)
un$^2$CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP [75.19266107565109]
コントラスト言語-画像事前学習(CLIP)が基礎モデルとなり、様々なビジョンやマルチモーダルタスクに適用されている。この作業は既存のCLIPモデルの改善に重点を置いており、可能な限り多くの画像の視覚的詳細をキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-05-30T12:29:38Z)
Is CLIP ideal? No. Can we fix it? Yes! [30.71718499767702]
Contrastive Language-Image Pre-Trainingは、よく組織化されたセマンティクスでマルチモーダルな潜在空間を学習する一般的な方法である。広い範囲のアプリケーションにもかかわらず、CLIPの潜伏空間は複雑な視覚とテキストの相互作用を扱うのに失敗することが知られている。本稿では,CLIP様モデルの原理的,解釈可能な評価法として,コサイン類似度マップ(DCSM)を提案する。
論文参考訳（メタデータ） (2025-03-10T23:42:04Z)
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。 SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文参考訳（メタデータ） (2024-11-24T15:14:05Z)
TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文参考訳（メタデータ） (2024-11-04T19:24:59Z)
CLIP-based Point Cloud Classification via Point Cloud to Image Translation [19.836264118079573]
Contrastive Vision-Language Pre-Training(CLIP)ベースのポイントクラウド分類モデル(PointCLIP)は、ポイントクラウド分類研究領域に新たな方向性を追加した。本稿では,PPCITNet(Pretrained Point Cloud to Image Translation Network)を提案する。
論文参考訳（メタデータ） (2024-08-07T04:50:05Z)
Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文参考訳（メタデータ） (2024-04-27T02:04:36Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文参考訳（メタデータ） (2022-10-03T16:13:14Z)
No Token Left Behind: Explainability-Aided Image Classification and Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文参考訳（メタデータ） (2022-04-11T07:16:39Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。