論文の概要: CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge
- arxiv url: http://arxiv.org/abs/2402.15726v1
- Date: Sat, 24 Feb 2024 05:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:22:56.557076
- Title: CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge
- Title(参考訳): CLIPose: 事前学習型視覚言語知識を用いたカテゴリーレベルオブジェクトポス推定
- Authors: Xiao Lin, Minghao Zhu, Ronghao Dang, Guangliang Zhou, Shaolong Shu,
Feng Lin, Chengju Liu and Qijun Chen
- Abstract要約: 本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
- 参考スコア(独自算出の注目度): 18.57081150228812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of existing category-level object pose estimation methods devote to
learning the object category information from point cloud modality. However,
the scale of 3D datasets is limited due to the high cost of 3D data collection
and annotation. Consequently, the category features extracted from these
limited point cloud samples may not be comprehensive. This motivates us to
investigate whether we can draw on knowledge of other modalities to obtain
category information. Inspired by this motivation, we propose CLIPose, a novel
6D pose framework that employs the pre-trained vision-language model to develop
better learning of object category information, which can fully leverage
abundant semantic knowledge in image and text modalities. To make the 3D
encoder learn category-specific features more efficiently, we align
representations of three modalities in feature space via multi-modal
contrastive learning. In addition to exploiting the pre-trained knowledge of
the CLIP's model, we also expect it to be more sensitive with pose parameters.
Therefore, we introduce a prompt tuning approach to fine-tune image encoder
while we incorporate rotations and translations information in the text
descriptions. CLIPose achieves state-of-the-art performance on two mainstream
benchmark datasets, REAL275 and CAMERA25, and runs in real-time during
inference (40FPS).
- Abstract(参考訳): 既存のカテゴリレベルのオブジェクトポーズ推定手法のほとんどは、ポイントクラウドモダリティからオブジェクトカテゴリ情報を学ぶことに専念している。
しかし、3Dデータ収集とアノテーションのコストが高いため、3Dデータセットのスケールは制限されている。
したがって、これらの限られた点の雲サンプルから抽出されたカテゴリの特徴は包括的ではないかもしれない。
これは、カテゴリ情報を得るために他のモダリティの知識を頼りにできるかどうかを調べる動機となる。
このモチベーションに触発されたCLIPoseは、事前学習された視覚言語モデルを用いて、画像とテキストのモダリティにおける豊富なセマンティック知識を十分に活用できるオブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークである。
3次元エンコーダがカテゴリ固有の特徴をより効率的に学習できるようにするため,マルチモーダルコントラスト学習により特徴空間内の3つの様相の表現を整列する。
CLIPのモデルの事前訓練された知識を活用することに加えて、ポーズパラメータに敏感になることも期待しています。
そこで本研究では,テキスト記述に回転情報や翻訳情報を組み込んだ微調整画像エンコーダの高速化手法を提案する。
CLIPoseは2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中にリアルタイムに実行する(40FPS)。
関連論文リスト
- Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - MV-CLIP: Multi-View CLIP for Zero-shot 3D Shape Recognition [49.52436478739151]
大規模な事前訓練モデルでは、オープンワールドシナリオにおける視覚と言語タスクのパフォーマンスが著しく向上している。
近年の手法では、ゼロショット3次元形状認識を実現するために、言語画像事前学習を採用している。
本稿では、ビュー選択と階層的プロンプトによる信頼性の向上を目的とする。
論文 参考訳(メタデータ) (2023-11-30T09:51:53Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。