論文の概要: Align3D-AD: Cross-Modal Feature Alignment and Dual-Prompt Learning for Zero-shot 3D Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.05850v1
- Date: Thu, 07 May 2026 08:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.624667
- Title: Align3D-AD: Cross-Modal Feature Alignment and Dual-Prompt Learning for Zero-shot 3D Anomaly Detection
- Title(参考訳): Align3D-AD: ゼロショット3D異常検出のためのクロスモーダル特徴アライメントとデュアルプロンプト学習
- Authors: Letian Bai, Xuanming Cao, Juan Du, Chengyu Tao,
- Abstract要約: ゼロショット3D異常検出は、ターゲットカテゴリからのトレーニングデータにアクセスすることなく、異常を識別することを目的としている。
既存の手法は主に幾何学的手がかりを主に捉える多視点表現に3D観測を投影することに依存している。
本稿では,補助カテゴリからのRGBモダリティをクロスモーダルガイダンスとして活用する2段階統合フレームワークAlign3D-ADを提案する。
- 参考スコア(独自算出の注目度): 2.08058961865456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot 3D anomaly detection aims to identify anomalies without access to training data from target categories. However, existing methods mainly rely on projecting 3D observations into multi-view representations that primarily capture geometric cues rather than realistic visual semantics and process them with vision encoders pretrained on RGB data, leading to a significant domain gap between the encoder and the projected representations. To address this issue, we propose Align3D-AD, a unified two-stage framework that leverages the RGB modality from auxiliary categories as cross-modal guidance for zero-shot 3D anomaly detection. First, we introduce a cross-modal feature alignment paradigm that maps rendering features into the RGB semantic space. Unlike prior works that implicitly rely on pretrained encoders, our method enables direct semantic transfer from RGB observations. A semantic consistency reweighting strategy is further introduced to refine feature alignment by reweighting local regions according to holistic semantic consistency. Second, we propose a modality-aware prompt learning framework with dual-prompt contrastive alignment. By assigning independent prompts to RGB-aligned and rendering features, our method captures complementary semantics across modalities, while the contrastive alignment further enhances prompt representations to improve discriminability. Extensive experiments on MVTec3D-AD, Eyecandies, and Real3D-AD demonstrate that Align3D-AD consistently outperforms existing zero-shot methods under both one-vs-rest and cross-dataset settings, highlighting its generalization capability and robustness. Code and the dataset will be made available once our paper is accepted.
- Abstract(参考訳): ゼロショット3D異常検出は、ターゲットカテゴリからのトレーニングデータにアクセスすることなく、異常を識別することを目的としている。
しかし、既存の手法は主に、現実的な視覚的意味論ではなく幾何学的手がかりを主に捉え、RGBデータに基づいて事前訓練された視覚エンコーダで処理する多視点表現への3D観察の投影に依存しており、エンコーダと投影された表現の間に大きな領域ギャップが生じる。
この問題に対処するために,補助カテゴリからのRGBモダリティをゼロショット3D異常検出のためのクロスモーダルガイダンスとして活用する,統合された2段階フレームワークであるAlign3D-ADを提案する。
まず、レンダリング機能をRGBセマンティック空間にマッピングするクロスモーダルな特徴アライメントパラダイムを導入する。
事前学習したエンコーダに暗黙的に依存する先行研究とは異なり、本手法はRGB観測から直接意味伝達を可能にする。
セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスに従って局所領域を再重み付けすることで特徴アライメントを洗練するためにセマンティック・セマンティクス・アライメント・ストラテジーを導入する。
第二に、二段階のコントラストアライメントを持つモーダルアウェア・プロンプト学習フレームワークを提案する。
提案手法は,RGB とレンダリング機能に独立的なプロンプトを割り当てることで,モダリティ間の相補的セマンティクスをキャプチャし,コントラクティブアライメントはプロンプト表現をさらに強化し,識別性を向上させる。
MVTec3D-AD、Eyecandies、Real3D-ADに関する大規模な実験では、Align3D-ADは1vs-restとクロスデータセット設定の両方で既存のゼロショットメソッドよりも一貫して優れており、その一般化能力と堅牢性を強調している。
私たちの論文が受け入れられたら、コードとデータセットが利用可能になります。
関連論文リスト
- PC-CrossDiff: Point-Cluster Dual-Level Cross-Modal Differential Attention for Unified 3D Referring and Segmentation [40.5034963034718]
3Dビジュアルグラウンディングは2つのコアタスクを通して自然言語参照表現をローカライズすることを目的としている: Referring Expression (3DREC)とReferring Expression (3DRES)
既存の手法は、暗黙の局所化キューの不十分な解析と、共起物体からの動的空間干渉の非効率な抑制という、複雑な多目的シーンにおいて2つの重要な課題に直面している。
PC-CrossDiffは3DRECと3DRESのための2レベルクロスモーダルアテンションアーキテクチャを備えた統合デュアルタスクフレームワークである。
論文 参考訳(メタデータ) (2026-03-18T14:16:48Z) - Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge [45.19482892758984]
Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
論文 参考訳(メタデータ) (2025-10-09T15:01:26Z) - CMF-IoU: Multi-Stage Cross-Modal Fusion 3D Object Detection with IoU Joint Prediction [29.7092783661859]
カメラとLiDARセンサーに基づくマルチモーダル手法は、3D検出の分野で大きな注目を集めている。
CMF-IOUと呼ばれる多段階の相互融合3D検出フレームワークを導入し,3次元空間情報と2次元意味情報を整合させることの課題に対処する。
論文 参考訳(メタデータ) (2025-08-18T13:32:07Z) - LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [65.42565481489132]
人間は、単一のクエリ参照イメージペアのみを前提として、ラベル付けやトレーニングをすることなく、これまで見られなかったオブジェクトの相対的なポーズを容易に推論することができる。
RGB-D参照から3D/2.5D形状認識と2.5D形状認識を併用した新しい3次元一般化可能な相対ポーズ推定法を提案する。
RGBとセマンティックマップ(DINOv2がRGB入力から取得)によってテクスチャ化された2.5Dの回転可能なメッシュを識別し、新しいRGBとセマンティックマップを新しい回転ビューの下でレンダリングする。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。