論文の概要: Prompt-guided Scene Generation for 3D Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2209.14690v1
- Date: Thu, 29 Sep 2022 11:24:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:21:05.806684
- Title: Prompt-guided Scene Generation for 3D Zero-Shot Learning
- Title(参考訳): 3次元ゼロショット学習のためのプロンプト誘導シーン生成
- Authors: Majid Nasiri, Ali Cheraghian, Townim Faisal Chowdhury, Sahar Ahmadi,
Morteza Saberi, Shafin Rahman
- Abstract要約: 本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
- 参考スコア(独自算出の注目度): 8.658191774247944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot learning on 3D point cloud data is a related underexplored problem
compared to its 2D image counterpart. 3D data brings new challenges for ZSL due
to the unavailability of robust pre-trained feature extraction models. To
address this problem, we propose a prompt-guided 3D scene generation and
supervision method that augments 3D data to learn the network better, exploring
the complex interplay of seen and unseen objects. First, we merge point clouds
of two 3D models in certain ways described by a prompt. The prompt acts like
the annotation describing each 3D scene. Later, we perform contrastive learning
to train our proposed architecture in an end-to-end manner. We argue that 3D
scenes can relate objects more efficiently than single objects because popular
language models (like BERT) can achieve high performance when objects appear in
a context. Our proposed prompt-guided scene generation method encapsulates data
augmentation and prompt-based annotation/captioning to improve 3D ZSL
performance. We have achieved state-of-the-art ZSL and generalized ZSL
performance on synthetic (ModelNet40, ModelNet10) and real-scanned
(ScanOjbectNN) 3D object datasets.
- Abstract(参考訳): 3Dポイントのクラウドデータのゼロショット学習は、その2D画像と比較すると、未解決の問題である。
3Dデータは、堅牢な事前訓練された特徴抽出モデルが利用できないため、ZSLに新たな課題をもたらす。
この問題に対処するために,ネットワークをよりよく学習するために3次元データを拡張した3次元シーン生成と監視手法を提案し,目に見えないオブジェクトの複雑な相互作用を探索する。
まず、2つの3dモデルの点雲をプロンプトによって記述されたある方法でマージする。
プロンプトは、各3dシーンを記述するアノテーションのように振る舞う。
その後,提案するアーキテクチャをエンドツーエンドでトレーニングするために,対比学習を行う。
3dシーンは、オブジェクトがコンテキストに現れると、人気言語モデル(bertなど)が高いパフォーマンスを達成できるため、単一オブジェクトよりもオブジェクトをより効率的に関連付けることができると主張する。
提案手法は,3次元ZSLの性能向上のために,データ拡張とプロンプトベースのアノテーション/カプセル化をカプセル化する。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端ZSLと一般化ZSLの性能を実現した。
関連論文リスト
- SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文 参考訳(メタデータ) (2023-03-08T17:30:58Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Zero-Shot Learning on 3D Point Cloud Objects and Beyond [21.6491982908705]
課題のいくつかを特定し,既存のモデルの性能を解析するために3次元領域に2次元ゼロショット学習(ZSL)手法を適用した。
観測された意味論とポイントクラウド機能を同時に調整する新しい損失関数を開発した。
幅広い実験が行われ、合成データセットと実データセットにZSLとGZSLの最先端を確立します。
論文 参考訳(メタデータ) (2021-04-11T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。