論文の概要: Exploiting Point-Language Models with Dual-Prompts for 3D Anomaly Detection
- arxiv url: http://arxiv.org/abs/2502.11307v1
- Date: Sun, 16 Feb 2025 23:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:14.325886
- Title: Exploiting Point-Language Models with Dual-Prompts for 3D Anomaly Detection
- Title(参考訳): 3次元異常検出のためのデュアルプロンプトを用いた点線モデルの作成
- Authors: Jiaxiang Wang, Haote Xu, Xiaolu Chen, Haodi Xu, Yue Huang, Xinghao Ding, Xiaotong Tu,
- Abstract要約: 3次元点雲における異常検出は、幅広い産業応用において不可欠である。
3D Anomaly dEtection (PLANE) のためのデュアルプロンプトを用いた新しいポイント・ランゲージモデルを提案する。
- 参考スコア(独自算出の注目度): 31.377138253827603
- License:
- Abstract: Anomaly detection (AD) in 3D point clouds is crucial in a wide range of industrial applications, especially in various forms of precision manufacturing. Considering the industrial demand for reliable 3D AD, several methods have been developed. However, most of these approaches typically require training separate models for each category, which is memory-intensive and lacks flexibility. In this paper, we propose a novel Point-Language model with dual-prompts for 3D ANomaly dEtection (PLANE). The approach leverages multi-modal prompts to extend the strong generalization capabilities of pre-trained Point-Language Models (PLMs) to the domain of 3D point cloud AD, achieving impressive detection performance across multiple categories using a single model. Specifically, we propose a dual-prompt learning method, incorporating both text and point cloud prompts. The method utilizes a dynamic prompt creator module (DPCM) to produce sample-specific dynamic prompts, which are then integrated with class-specific static prompts for each modality, effectively driving the PLMs. Additionally, based on the characteristics of point cloud data, we propose a pseudo 3D anomaly generation method (Ano3D) to improve the model's detection capabilities in an unsupervised setting. Experimental results demonstrate that the proposed method, which is under the multi-class-one-model paradigm, achieves a +8.7%/+17% gain on anomaly detection and localization performance as compared to the state-of-the-art one-class-one-model methods for the Anomaly-ShapeNet dataset, and obtains +4.3%/+4.1% gain for the Real3D-AD dataset. Code will be available upon publication.
- Abstract(参考訳): 3次元点雲における異常検出(AD)は、幅広い産業用途、特に様々な精密製造形態において重要である。
信頼性の高い3DADの産業需要を考えると、いくつかの方法が開発されている。
しかしながら、これらのアプローチの多くは、一般的に、メモリ集約的で柔軟性に欠ける、各カテゴリの別々のモデルをトレーニングする必要があります。
本稿では,3D Anomaly dEtection (PLANE) のためのデュアルプロンプトを用いた新しいポイント・ランゲージモデルを提案する。
このアプローチは、マルチモーダルプロンプトを活用して、事前訓練されたポイントランゲージモデル(PLM)の強力な一般化能力を3DポイントクラウドADのドメインに拡張し、単一のモデルを使用して複数のカテゴリにわたる印象的な検出性能を達成する。
具体的には,テキストとポイントクラウドの両方のプロンプトを組み込んだデュアルプロンプト学習手法を提案する。
この方法は、動的プロンプト作成モジュール(DPCM)を使用して、サンプル固有の動的プロンプトを生成し、各モータリティのクラス固有の静的プロンプトと統合し、PLMを効果的に駆動する。
さらに,点雲データの特徴に基づき,教師なし環境でのモデル検出能力を向上させるために,擬似3次元異常生成法(Ano3D)を提案する。
実験の結果,提案手法はマルチクラス・ワン・モデル・パラダイムの下で,Anomaly-ShapeNetデータセットの最先端の1クラス・ワン・モデル・手法と比較して,異常検出とローカライズ性能において+8.7%/+17%向上し,Real3D-ADデータセットでは+4.3%/+4.1%向上した。
コードは出版時に公開されます。
関連論文リスト
- CL3DOR: Contrastive Learning for 3D Large Multimodal Models via Odds Ratio on High-Resolution Point Clouds [1.9643285694999641]
高解点雲上でのOdds比による3次元大規模マルチモーダルモデルのコントラスト学習を提案する。
CL3DORは3Dシーン理解と推論のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T15:42:32Z) - ZeroKey: Point-Level Reasoning and Zero-Shot 3D Keypoint Detection from Large Language Models [57.57832348655715]
3次元形状のキーポイント検出のための新しいゼロショット手法を提案する。
提案手法は,マルチモーダル大規模言語モデルに埋め込まれた豊富な知識を利用する。
論文 参考訳(メタデータ) (2024-12-09T08:31:57Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Zero-Shot Dual-Path Integration Framework for Open-Vocabulary 3D Instance Segmentation [19.2297264550686]
Open-vocabulary 3Dのインスタンスセグメンテーションは、従来のクローズドボキャブラリーメソッドを超越する。
我々は、Zero-Shot Dual-Path Integration Frameworkを導入し、3Dと2Dの両方のモダリティの貢献を等しく評価する。
筆者らのフレームワークは,ゼロショット方式で事前学習したモデルを利用しており,モデル非依存であり,目に見えるデータと目に見えないデータの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-16T07:52:00Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Number-Adaptive Prototype Learning for 3D Point Cloud Semantic
Segmentation [46.610620464184926]
セマンティッククラス内の異なる点パターンを動的に記述するために,適応的なプロトタイプ数を提案する。
本手法は,ポイントワイド分類パラダイムに基づくベースラインモデルよりも2.3%mIoUの改善を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:57:20Z) - Multimodal Semi-Supervised Learning for 3D Objects [19.409295848915388]
本稿では,3次元の分類処理と検索処理の両方において,異なる3次元データのモデルのコヒーレンスを用いてデータ効率を向上させる方法について検討する。
本稿では、インスタンスレベルの一貫性制約を導入し、新しいマルチモーダル・コントラッシブ・プロトタイプ(M2CP)の損失を減らし、新しいマルチモーダル・セミ教師付き学習フレームワークを提案する。
提案するフレームワークは,モデルNet10およびモデルNet40データセットにおいて,分類タスクと検索タスクの両方において,最先端のすべての処理性能を大幅に上回っている。
論文 参考訳(メタデータ) (2021-10-22T05:33:16Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。