Fugu-MT 論文翻訳(概要): Prompt-guided Scene Generation for 3D Zero-Shot Learning

論文の概要: Prompt-guided Scene Generation for 3D Zero-Shot Learning

arxiv url: http://arxiv.org/abs/2209.14690v1
Date: Thu, 29 Sep 2022 11:24:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 17:21:05.806684
Title: Prompt-guided Scene Generation for 3D Zero-Shot Learning
Title（参考訳）: 3次元ゼロショット学習のためのプロンプト誘導シーン生成
Authors: Majid Nasiri, Ali Cheraghian, Townim Faisal Chowdhury, Sahar Ahmadi, Morteza Saberi, Shafin Rahman
Abstract要約: 本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
参考スコア（独自算出の注目度）: 8.658191774247944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot learning on 3D point cloud data is a related underexplored problem compared to its 2D image counterpart. 3D data brings new challenges for ZSL due to the unavailability of robust pre-trained feature extraction models. To address this problem, we propose a prompt-guided 3D scene generation and supervision method that augments 3D data to learn the network better, exploring the complex interplay of seen and unseen objects. First, we merge point clouds of two 3D models in certain ways described by a prompt. The prompt acts like the annotation describing each 3D scene. Later, we perform contrastive learning to train our proposed architecture in an end-to-end manner. We argue that 3D scenes can relate objects more efficiently than single objects because popular language models (like BERT) can achieve high performance when objects appear in a context. Our proposed prompt-guided scene generation method encapsulates data augmentation and prompt-based annotation/captioning to improve 3D ZSL performance. We have achieved state-of-the-art ZSL and generalized ZSL performance on synthetic (ModelNet40, ModelNet10) and real-scanned (ScanOjbectNN) 3D object datasets.
Abstract（参考訳）: 3Dポイントのクラウドデータのゼロショット学習は、その2D画像と比較すると、未解決の問題である。 3Dデータは、堅牢な事前訓練された特徴抽出モデルが利用できないため、ZSLに新たな課題をもたらす。この問題に対処するために,ネットワークをよりよく学習するために3次元データを拡張した3次元シーン生成と監視手法を提案し,目に見えないオブジェクトの複雑な相互作用を探索する。まず、2つの3dモデルの点雲をプロンプトによって記述されたある方法でマージする。プロンプトは、各3dシーンを記述するアノテーションのように振る舞う。その後,提案するアーキテクチャをエンドツーエンドでトレーニングするために,対比学習を行う。 3dシーンは、オブジェクトがコンテキストに現れると、人気言語モデル(bertなど)が高いパフォーマンスを達成できるため、単一オブジェクトよりもオブジェクトをより効率的に関連付けることができると主張する。提案手法は,3次元ZSLの性能向上のために,データ拡張とプロンプトベースのアノテーション/カプセル化をカプセル化する。我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端ZSLと一般化ZSLの性能を実現した。

関連論文リスト

NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文参考訳（メタデータ） (2025-04-20T14:39:27Z)
ObjVariantEnsemble: Advancing Point Cloud LLM Evaluation in Challenging Scenes with Subtly Distinguished Objects [1.5408065585641535]
3Dシーンの理解は重要な課題であり、近年、エンボディドAIを強化するために、ポイントクラウドの3D表現とテキストとの整合性に関する研究の関心が高まっている。総合的な3Dベンチマークが欠如しているため、現実世界のシーン、特に微妙に区別されたオブジェクトに挑戦するシーンにおける3Dモデルの能力はいまだに十分に調査されていない。
論文参考訳（メタデータ） (2024-12-19T13:27:58Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-06T17:58:15Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)
SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文参考訳（メタデータ） (2023-12-13T18:59:30Z)
CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文参考訳（メタデータ） (2023-03-22T09:32:45Z)
CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D Dense CLIP [19.66617835750012]
3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
論文参考訳（メタデータ） (2023-03-08T17:30:58Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)
RandomRooms: Unsupervised Pre-training from Synthetic Shapes and Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文参考訳（メタデータ） (2021-08-17T17:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。