論文の概要: GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning
- arxiv url: http://arxiv.org/abs/2602.19206v1
- Date: Sun, 22 Feb 2026 14:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.530544
- Title: GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning
- Title(参考訳): GS-CLIP:Geometry-Aware PromptとSynergistic View Representation Learningによるゼロショット3次元異常検出
- Authors: Zehao Deng, An Liu, Yan Wang,
- Abstract要約: 3D異常検出は、ターゲットのトレーニングデータなしでターゲットデータセット内の異常を検出することを目的とした、新たなタスクである。
現在の方法は、3Dポイントクラウドを2D表現に投影することでCLIPに適応するが、それらは課題に直面している。
本研究では,2段階の学習プロセスを通じて幾何学的異常を識別するゲノメトリ・アウェア・プロンプトとシネジスティック・ビュー表現学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.364765496753074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot 3D Anomaly Detection is an emerging task that aims to detect anomalies in a target dataset without any target training data, which is particularly important in scenarios constrained by sample scarcity and data privacy concerns. While current methods adapt CLIP by projecting 3D point clouds into 2D representations, they face challenges. The projection inherently loses some geometric details, and the reliance on a single 2D modality provides an incomplete visual understanding, limiting their ability to detect diverse anomaly types. To address these limitations, we propose the Geometry-Aware Prompt and Synergistic View Representation Learning (GS-CLIP) framework, which enables the model to identify geometric anomalies through a two-stage learning process. In stage 1, we dynamically generate text prompts embedded with 3D geometric priors. These prompts contain global shape context and local defect information distilled by our Geometric Defect Distillation Module (GDDM). In stage 2, we introduce Synergistic View Representation Learning architecture that processes rendered and depth images in parallel. A Synergistic Refinement Module (SRM) subsequently fuses the features of both streams, capitalizing on their complementary strengths. Comprehensive experimental results on four large-scale public datasets show that GS-CLIP achieves superior performance in detection. Code can be available at https://github.com/zhushengxinyue/GS-CLIP.
- Abstract(参考訳): Zero-shot 3D Anomaly Detectionは、ターゲットデータセットの異常をターゲットのトレーニングデータなしで検出することを目的とした、新たなタスクである。
現在のメソッドは、3Dポイントクラウドを2D表現に投影することでCLIPに適応するが、それらは課題に直面している。
プロジェクションは本質的に幾何的な細部が失われ、単一の2次元モードへの依存は不完全な視覚的理解をもたらし、多様な異常な型を検出する能力を制限する。
これらの制約に対処するために,2段階の学習プロセスを通じて幾何学的異常を識別できるGeometry-Aware Prompt and Synergistic View Representation Learning (GS-CLIP)フレームワークを提案する。
ステージ1では、3次元幾何学的先行情報に埋め込まれたテキストプロンプトを動的に生成する。
これらのプロンプトは、我々のGeometric Defect Distillation Module (GDDM)によって蒸留された、グローバルな形状コンテキストと局所的な欠陥情報を含んでいる。
ステージ2では、描画と深度画像を並列に処理するSynergistic View Representation Learningアーキテクチャを導入する。
その後、SRM(Synergistic Refinement Module)が両方のストリームの特徴を融合させ、相補的な強みを生かした。
4つの大規模公開データセットの総合的な実験結果から,GS-CLIPは検出性能に優れていた。
コードはhttps://github.com/zhushengxinyue/GS-CLIPで入手できる。
関連論文リスト
- GVSynergy-Det: Synergistic Gaussian-Voxel Representations for Multi-View 3D Object Detection [18.809986709717446]
画像に基づく3Dオブジェクト検出は、RGB画像のみを使用して3D空間内のオブジェクトを識別およびローカライズすることを目的としている。
既存の画像ベースのアプローチは、2つの重要な課題に直面している。
本稿では,GVSynergy-Detを提案する。GVSynergy-Detは,相乗的ガウス・ボクセル表現学習による3次元検出を強化するフレームワークである。
論文 参考訳(メタデータ) (2025-12-29T03:34:39Z) - OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation [5.073373064582996]
オープンな3Dインスタンスセグメンテーションのための汎用的で正確なフレームワークであるOpenTrack3Dを紹介する。
事前に生成された提案に依存するメソッドとは異なり、OpenTrack3Dは、クロスビュー一貫性のあるオブジェクト提案を構築するために、新しいビジュアル空間トラッカーを使用している。
パイプラインは完全にメッシュフリーですが、シーンメッシュが利用可能になった時にパフォーマンスをさらに向上する、オプションのスーパーポイントリファインメントモジュールも提供しています。
論文 参考訳(メタデータ) (2025-12-03T07:51:03Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。