論文の概要: VT-3DAD: Cross-Category 3D Anomaly Detection via Visual-Text Normal Space Alignment
- arxiv url: http://arxiv.org/abs/2606.04369v1
- Date: Wed, 03 Jun 2026 02:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.485245
- Title: VT-3DAD: Cross-Category 3D Anomaly Detection via Visual-Text Normal Space Alignment
- Title(参考訳): VT-3DAD:ビジュアルテキスト正規空間アライメントによるクロスカテゴリ3次元異常検出
- Authors: Zi Wang, Katsuya Hotta, Yawen Zou, Koichiro Kamide, Yijin Wei, Chao Zhang, Jun Yu,
- Abstract要約: クロスカテゴリ3D異常検出は、未知の点雲が対象の正規カテゴリーに属するかどうかを判定することを目的としている。
VT-3DADは,視覚-テキスト正規空間アライメントによる3次元異方性検出のためのトレーニング不要フレームワークである。
- 参考スコア(独自算出の注目度): 14.682769775666225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot cross-category 3D anomaly detection aims to determine whether an unknown point cloud belongs to a target normal category using only a few normal references. Existing training-based methods usually require category-wise optimization, while recent training-free methods based on multi-view CLIP visual features mainly rely on visual similarity and may be confused by geometrically similar categories. In this paper, we propose VT-3DAD, a training-free framework for cross-category 3D anomaly detection via Visual-Text Normal Space Alignment. Given few-shot normal references and a test point cloud, VT-3DAD first generates realistic multi-view depth maps and extracts view-wise features using a frozen CLIP visual encoder. The visual branch measures reference-test deviation in the multi-view feature space. In parallel, depth-aware and 3D-aware prompts are encoded by the frozen CLIP text encoder to construct textual normal anchors, which provide semantic normality constraints for the target category. The final anomaly score is obtained by fusing visual deviation from normal references and semantic deviation from the textual normal space. Experiments on the ShapeNetPart dataset demonstrate that VT-3DAD achieves state-of-the-art performance. In particular, VT-3DAD improves the one-shot average AUC-ROC from 92.49% to 94.80% compared with the visual-only baseline, while also reducing the average standard deviation from 5.64 to 3.41.
- Abstract(参考訳): クロスカテゴリ3D異常検出は、未知の点雲が対象の通常のカテゴリーに属しているかどうかを、ごくわずかの基準で判定することを目的としている。
既存のトレーニングベース手法は、通常、カテゴリの最適化を必要とするが、近年のマルチビューCLIPビジュアル特徴に基づくトレーニングフリー手法は、主に視覚的類似性に依存しており、幾何学的に類似したカテゴリで混同されることがある。
本稿では,VT-3DADを提案する。VT-3DADは,Visual-Text Normal Space Alignmentを用いて,クロスカテゴリ3D異常検出のためのトレーニングフリーフレームワークである。
数ショットの通常の参照とテストポイントクラウドを与えられたVT-3DADは、まず現実的なマルチビュー深度マップを生成し、凍結したCLIPビジュアルエンコーダを使用してビューワイズ機能を抽出する。
ビジュアルブランチは、マルチビュー特徴空間における参照-テストの偏差を測定する。
並行して、Deep-Awareと3D-Awareのプロンプトは凍結したCLIPテキストエンコーダによってエンコードされ、テキストの正規アンカーを構築する。
最終的な異常スコアは、通常の参照からの視覚的偏差とテキストの正規空間からの意味的偏差を融合して得られる。
ShapeNetPartデータセットの実験では、VT-3DADが最先端のパフォーマンスを実現している。
特に、VT-3DADは1発平均のAUC-ROCを92.49%から94.80%に改善し、平均標準偏差を5.64から3.41に下げた。
関連論文リスト
- DMP-3DAD: Cross-Category 3D Anomaly Detection via Realistic Depth Map Projection with Few Normal Samples [15.21047221062711]
3次元点雲のカテゴリ間異常検出は、見えない物体が対象カテゴリーに属するかどうかを判定することを目的としている。
既存のほとんどのメソッドはカテゴリ固有のトレーニングに依存しており、数ショットのシナリオでは柔軟性が制限される。
DMP-3DADは、マルチビューリアルな深度マップ投影に基づく3次元異常検出のための訓練不要フレームワークである。
論文 参考訳(メタデータ) (2026-02-11T12:47:38Z) - Towards Zero-shot 3D Anomaly Localization [58.62650061201283]
3DzALは3D異常検出とローカライゼーションのためのパッチレベルの新しいコントラスト学習フレームワークである。
3DzALは最先端の異常検出および局所化性能より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-05T16:25:27Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation [22.850815902535988]
CLIP上に拡張された効率的な3D-FSAD法であるCLIP3D-ADを提案する。
正常画像上の異常画像をサンプルペアとして合成し,CLIPを3次元の異常分類とセグメンテーションに適応させる。
本手法は,MVTec-3D ADデータセット上での3次元ショット異常分類とセグメンテーションの競合性能を有する。
論文 参考訳(メタデータ) (2024-06-27T07:13:09Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - Deep Point Cloud Normal Estimation via Triplet Learning [12.271669779096076]
点雲の新しい正規推定法を提案する。
a) 局所パッチの表現を学習する特徴符号化と(b) 学習した表現を入力として取り、通常のベクトルを回帰する正規推定である。
本手法は,シャープな特徴を保存し,CAD形状の正常な推定結果を改善する。
論文 参考訳(メタデータ) (2021-10-20T11:16:00Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。