Fugu-MT 論文翻訳(概要): CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation

論文の概要: CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation

arxiv url: http://arxiv.org/abs/2406.18941v1
Date: Thu, 27 Jun 2024 07:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 14:57:01.166265
Title: CLIP3D-AD: Extending CLIP for 3D Few-Shot Anomaly Detection with Multi-View Images Generation
Title（参考訳）: CLIP3D-AD:マルチビュー画像生成による3次元Few-Shot異常検出のためのCLIPの拡張
Authors: Zuo Zuo, Jiahao Dong, Yao Wu, Yanyun Qu, Zongze Wu,
Abstract要約: CLIP上に拡張された効率的な3D-FSAD法であるCLIP3D-ADを提案する。正常画像上の異常画像をサンプルペアとして合成し,CLIPを3次元の異常分類とセグメンテーションに適応させる。本手法は,MVTec-3D ADデータセット上での3次元ショット異常分類とセグメンテーションの競合性能を有する。
参考スコア（独自算出の注目度）: 22.850815902535988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Few-shot anomaly detection methods can effectively address data collecting difficulty in industrial scenarios. Compared to 2D few-shot anomaly detection (2D-FSAD), 3D few-shot anomaly detection (3D-FSAD) is still an unexplored but essential task. In this paper, we propose CLIP3D-AD, an efficient 3D-FSAD method extended on CLIP. We successfully transfer strong generalization ability of CLIP into 3D-FSAD. Specifically, we synthesize anomalous images on given normal images as sample pairs to adapt CLIP for 3D anomaly classification and segmentation. For classification, we introduce an image adapter and a text adapter to fine-tune global visual features and text features. Meanwhile, we propose a coarse-to-fine decoder to fuse and facilitate intermediate multi-layer visual representations of CLIP. To benefit from geometry information of point cloud and eliminate modality and data discrepancy when processed by CLIP, we project and render point cloud to multi-view normal and anomalous images. Then we design multi-view fusion module to fuse features of multi-view images extracted by CLIP which are used to facilitate visual representations for further enhancing vision-language correlation. Extensive experiments demonstrate that our method has a competitive performance of 3D few-shot anomaly classification and segmentation on MVTec-3D AD dataset.
Abstract（参考訳）: 産業シナリオにおけるデータ収集の難しさに効果的に対処できる撮影異常検出手法はほとんどない。 2D-FSAD (2D-FSAD) と比較すると, 3D-FSAD (3D-FSAD) は未発見だが必須課題である。本稿では,CLIP上に拡張された効率的な3D-FSAD法であるCLIP3D-ADを提案する。私たちはCLIPの強力な一般化能力を3D-FSADに変換することに成功した。具体的には,通常の画像上の異常画像をサンプルペアとして合成し,CLIPを3次元の異常分類とセグメンテーションに適応させる。分類には,グローバルな視覚的特徴やテキスト特徴を微調整するイメージアダプタとテキストアダプタを導入する。一方,CLIPの中間的多層視覚表現を融合し,促進する粗大なデコーダを提案する。点雲の幾何学的情報を活用し,CLIPによって処理された場合のモダリティやデータの相違をなくすため,点雲を投影・描画する。そこで我々は,CLIPが抽出した多視点画像の特徴を融合する多視点融合モジュールを設計し,視覚的表現を容易にし,視覚言語間の相関を一層強化する。本手法は,MVTec-3D ADデータセット上での3次元ショット異常分類とセグメンテーションの競合性能を示す。

関連論文リスト

Describe, Adapt and Combine: Empowering CLIP Encoders for Open-set 3D Object Retrieval [76.86914849263168]
オープンセット3Dオブジェクト検索は、トレーニングセットを超えて、目に見えないカテゴリの3Dオブジェクトを検索することを目的とした、新たなタスクである。既存の手法は通常、すべてのモダリティ(ボクセル、点雲、マルチビュー画像など)を使用し、融合前に特定のバックボーンを訓練する。 Describe, Adapt and Combine (DAC) というフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-29T04:11:05Z)
PointAD: Comprehending 3D Anomalies from Points and Pixels for Zero-shot 3D Anomaly Detection [13.60524473223155]
本稿では,未知の物体上の3次元異常を認識するために,CLIPの強力な一般化能力を伝達する新しい手法であるPointADを紹介する。 PointADは、複数の2Dレンダリングに3D異常をレンダリングし、それらを3D空間に投影する。我々のモデルはRGB情報を直接統合することができ、プラグアンドプレイ方式で3D異常の理解をさらに強化することができる。
論文参考訳（メタデータ） (2024-10-01T01:40:22Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding [28.112402580426174]
TriAdapter Multi-Modal Learning (TAMM)は3つの相乗的アダプタに基づく新しい2段階学習手法である。 TAMMは、広範囲の3Dエンコーダアーキテクチャ、事前トレーニングデータセット、下流タスクの3D表現を一貫して強化する。
論文参考訳（メタデータ） (2024-02-28T17:18:38Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
Bridged Transformer for Vision and Point Cloud 3D Object Detection [92.86856146086316]
Bridged Transformer (BrT) は、3Dオブジェクト検出のためのエンドツーエンドアーキテクチャである。 BrTは3Dオブジェクトと2Dオブジェクトのバウンディングボックスを、ポイントとイメージパッチの両方から識別する。 BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T05:44:22Z)
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文参考訳（メタデータ） (2022-10-03T16:13:14Z)
Scatter Points in Space: 3D Detection from Multi-view Monocular Images [8.71944437852952]
単眼画像からの3次元物体検出は,コンピュータビジョンの課題であり,長年の課題である。近年の手法では, 空間に密集した正規3次元格子をサンプリングすることにより, マルチビュー特性を集約する傾向にある。そこで本研究では,データ空間に擬似曲面点を散布し,データの分散性を維持するための学習可能なキーポイントサンプリング手法を提案する。
論文参考訳（メタデータ） (2022-08-31T09:38:05Z)
PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文参考訳（メタデータ） (2022-07-07T07:23:20Z)
Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-07T22:09:34Z)
Object Detection on Single Monocular Images through Canonical Correlation Analysis [3.4722706398428493]
点雲や深度画像のような余分な3次元データを用いることなく、単分子画像から3次元オブジェクト情報を検索する。本稿では,単眼画像とそれに対応する深度画像とを融合する2次元CCAフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-13T05:03:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。