論文の概要: MCL-AD: Multimodal Collaboration Learning for Zero-Shot 3D Anomaly Detection
- arxiv url: http://arxiv.org/abs/2509.10282v1
- Date: Fri, 12 Sep 2025 14:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.120929
- Title: MCL-AD: Multimodal Collaboration Learning for Zero-Shot 3D Anomaly Detection
- Title(参考訳): MCL-AD: ゼロショット3次元異常検出のためのマルチモーダル協調学習
- Authors: Gang Li, Tianjiao Chen, Mingle Zhou, Min Li, Delong Han, Jin Wan,
- Abstract要約: 本稿では,ポイントクラウド,RGBイメージ,テキストセマンティクス間のマルチモーダルな協調学習を活用して,より優れたゼロショット3D異常検出を実現する新しいフレームワークであるMCL-ADを紹介する。
さらに、RGB画像誘導と点雲誘導の分岐を協調的に調整することにより、点雲とRGB画像の相補的表現を完全に活用するコラボレーティブ変調機構(CMM)を提案する。
- 参考スコア(独自算出の注目度): 13.216282242922993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot 3D (ZS-3D) anomaly detection aims to identify defects in 3D objects without relying on labeled training data, making it especially valuable in scenarios constrained by data scarcity, privacy, or high annotation cost. However, most existing methods focus exclusively on point clouds, neglecting the rich semantic cues available from complementary modalities such as RGB images and texts priors. This paper introduces MCL-AD, a novel framework that leverages multimodal collaboration learning across point clouds, RGB images, and texts semantics to achieve superior zero-shot 3D anomaly detection. Specifically, we propose a Multimodal Prompt Learning Mechanism (MPLM) that enhances the intra-modal representation capability and inter-modal collaborative learning by introducing an object-agnostic decoupled text prompt and a multimodal contrastive loss. In addition, a collaborative modulation mechanism (CMM) is proposed to fully leverage the complementary representations of point clouds and RGB images by jointly modulating the RGB image-guided and point cloud-guided branches. Extensive experiments demonstrate that the proposed MCL-AD framework achieves state-of-the-art performance in ZS-3D anomaly detection.
- Abstract(参考訳): Zero-shot 3D (ZS-3D) 異常検出は、ラベル付きトレーニングデータに頼ることなく、3Dオブジェクトの欠陥を特定することを目的としている。
しかし、既存のほとんどのメソッドはポイントクラウドのみに焦点を当てており、RGB画像やテキストの先行といった補完的なモダリティから利用できるリッチなセマンティックな手がかりを無視している。
本稿では,ポイントクラウド,RGBイメージ,テキストセマンティクス間のマルチモーダルな協調学習を活用して,より優れたゼロショット3D異常検出を実現する新しいフレームワークであるMCL-ADを紹介する。
具体的には、オブジェクトに依存しない非結合テキストプロンプトとマルチモーダルコントラスト損失を導入することで、モーダル内表現能力とモーダル間協調学習を向上させるマルチモーダル・プロンプト学習機構(MPLM)を提案する。
さらに、RGB画像誘導と点雲誘導の分岐を協調的に調整することにより、点雲とRGB画像の相補的表現を完全に活用するコラボレーティブ変調機構(CMM)を提案する。
MCL-ADフレームワークは,ZS-3D異常検出における最先端性能を実現する。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Efficient Multimodal 3D Object Detector via Instance-Level Contrastive Distillation [17.634678949648208]
提案したICDフレームワークとCLFM(Cross Linear Attention Fusion Module)を組み込んだ高速かつ効果的なマルチモーダル3Dオブジェクト検出器を提案する。
我々の3Dオブジェクト検出器は、より優れた効率を実現しつつ、最先端(SOTA)手法より優れています。
論文 参考訳(メタデータ) (2025-03-17T08:26:11Z) - CL3DOR: Contrastive Learning for 3D Large Multimodal Models via Odds Ratio on High-Resolution Point Clouds [1.9643285694999641]
高解点雲上でのOdds比による3次元大規模マルチモーダルモデルのコントラスト学習を提案する。
CL3DORは3Dシーン理解と推論のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-07T15:42:32Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - M3DM-NR: RGB-3D Noisy-Resistant Industrial Anomaly Detection via Multimodal Denoising [63.39134873744748]
既存の産業異常検出手法は主に、原始RGB画像を用いた教師なし学習に重点を置いている。
本稿では,CLIPの強力なマルチモーダル識別機能を利用する新しい耐雑音性M3DM-NRフレームワークを提案する。
M3DM-NRは3D-RGBマルチモーダルノイズ異常検出において最先端の手法より優れていた。
論文 参考訳(メタデータ) (2024-06-04T12:33:02Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。