Fugu-MT 論文翻訳(概要): Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

論文の概要: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation

arxiv url: http://arxiv.org/abs/2405.13571v2
Date: Fri, 16 Aug 2024 03:33:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 20:02:45.972650
Title: Incomplete Multimodal Industrial Anomaly Detection via Cross-Modal Distillation
Title（参考訳）: クロスモーダル蒸留による不完全多モード産業異常検出
Authors: Wenbo Sui, Daniel Lichau, Josselin Lefèvre, Harold Phelippeau,
Abstract要約: 3次元点雲とRGB画像に基づくマルチモーダル産業異常検出(IAD)は現在も進行中である。既存の品質制御プロセスは、光学および赤外線イメージングのような高速なインライン検査と高解像度だが時間を要するニアラインキャラクタリゼーション技術を組み合わせている。 IADのためのクロスモーダル蒸留フレームワークであるCMDIADを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent studies of multimodal industrial anomaly detection (IAD) based on 3D point clouds and RGB images have highlighted the importance of exploiting the redundancy and complementarity among modalities for accurate classification and segmentation. However, achieving multimodal IAD in practical production lines remains a work in progress. It is essential to consider the trade-offs between the costs and benefits associated with the introduction of new modalities while ensuring compatibility with current processes. Existing quality control processes combine rapid in-line inspections, such as optical and infrared imaging with high-resolution but time-consuming near-line characterization techniques, including industrial CT and electron microscopy to manually or semi-automatically locate and analyze defects in the production of Li-ion batteries and composite materials. Given the cost and time limitations, only a subset of the samples can be inspected by all in-line and near-line methods, and the remaining samples are only evaluated through one or two forms of in-line inspection. To fully exploit data for deep learning-driven automatic defect detection, the models must have the ability to leverage multimodal training and handle incomplete modalities during inference. In this paper, we propose CMDIAD, a Cross-Modal Distillation framework for IAD to demonstrate the feasibility of a Multi-modal Training, Few-modal Inference (MTFI) pipeline. Our findings show that the MTFI pipeline can more effectively utilize incomplete multimodal information compared to applying only a single modality for training and inference. Moreover, we investigate the reasons behind the asymmetric performance improvement using point clouds or RGB images as the main modality of inference. This provides a foundation for our future multimodal dataset construction with additional modalities from manufacturing scenarios.
Abstract（参考訳）: 近年の3次元点雲とRGB画像に基づく多次元産業異常検出(IAD)の研究は、正確な分類と分割のためのモダリティ間の冗長性と相補性を活用することの重要性を強調している。しかし、実用製品ラインでのマルチモーダルIADの実現は、現在も進行中である。現在のプロセスとの互換性を確保しつつ、新しいモダリティの導入に伴うコストと利益のトレードオフを検討することが不可欠である。既存の品質管理プロセスは、光学的および赤外線イメージングのような高速なインライン検査と、工業用CTや電子顕微鏡など、高解像度だが時間を要するニアラインのキャラクタリゼーション技術を組み合わせて、Liイオン電池や複合材料の製造における欠陥を手動または半自動で発見し分析する。コストと時間的制約を考慮すれば、サンプルのサブセットのみがインラインおよびニアラインメソッドで検査でき、残りのサンプルはインラインインラインインスペクションの1つか2つの形式でのみ評価される。ディープラーニング駆動の自動欠陥検出のためのデータを完全に活用するには、モデルはマルチモーダルトレーニングを活用し、推論中に不完全なモダリティを処理する能力を持つ必要がある。本稿では,多モードトレーニング・Few-modal Inference(MTFI)パイプラインの実現可能性を示すため,IAD用クロスモーダル蒸留フレームワークであるCMDIADを提案する。その結果,MTFIパイプラインはトレーニングや推論に単一モードのみを適用するよりも,不完全なマルチモーダル情報を効果的に活用できることがわかった。さらに, 点雲やRGB画像を用いた非対称な性能改善の背景として, 推論の主なモダリティについて検討する。これは、製造シナリオから追加のモダリティを備えた、将来のマルチモーダルデータセット構築の基盤を提供します。

関連論文リスト

A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations [2.312232949770907]
転がり要素軸受は機械故障の最も頻発する原因の一つである。転がり要素軸受は機械故障の最も頻発する原因の一つである。既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
論文参考訳（メタデータ） (2025-12-07T07:38:36Z)
MRC-DETR: An Adaptive Multi-Residual Coupled Transformer for Bare Board PCB Defect Detection [11.16242420187823]
そこで本研究では,PCB 欠陥検査のための新規かつ効率的な検出フレームワーク MRC-DETR を提案する。特徴表現能力を高めるため,MRDCB(Multi-Residual Directional Coupled Block)を設計する。非効率な層間情報融合による計算冗長性を低減するため、適応スクリーニングピラミッドネットワーク(ASPN)を導入する。
論文参考訳（メタデータ） (2025-07-04T08:42:38Z)
Feature Fusion and Knowledge-Distilled Multi-Modal Multi-Target Detection [2.295863158976069]
マルチモーダルMTDのための機能融合および知識蒸留フレームワークを提案する。後続確率最適化タスクとしてこの問題を定式化し,多段階学習パイプラインを用いて解決する。実験の結果,教師モデルの平均平均精度の約95%を学生モデルが達成していることがわかった。
論文参考訳（メタデータ） (2025-05-31T03:11:44Z)
Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
EIAD: Explainable Industrial Anomaly Detection Via Multi-Modal Large Language Models [23.898938659720503]
工業異常検出(IAD)は製造中の製品品質を確保するために重要である。本稿では,コア特徴抽出からダイアログ機能を分離する専用マルチモーダル欠陥ローカライゼーションモジュールを提案する。私たちはまた、Defect Detection Question Answering (DDQA) という、最初のマルチモーダル産業異常検出トレーニングデータセットにも貢献する。
論文参考訳（メタデータ） (2025-03-18T11:33:29Z)
Triad: Empowering LMM-based Anomaly Detection with Vision Expert-guided Visual Tokenizer and Manufacturing Process [67.99194145865165]
LLaVAモデルのAnyRes構造を変更し、既存のIADモデルによって同定された潜在的な異常領域をLMMに提供します。欠陥の発生が製造プロセスと密接に関連していることを考えると,製造駆動型IADパラダイムを提案する。本稿では、エキスパート誘導型領域トークン化と製造プロセスを組み合わせたLMMに基づく新しい手法であるTriadを提案する。
論文参考訳（メタデータ） (2025-03-17T13:56:57Z)
Rethinking Multi-modal Object Detection from the Perspective of Mono-Modality Feature Learning [18.268054258939213]
我々は,マルチモーダル検出器に線形探索評価を導入し,マルチモーダル物体検出タスクを再考する。 M$2$D-LIFという,モノモダリティ蒸留(M$2$D)法と局所照明対応核融合(LIF)モジュールからなる新しいフレームワークを構築した。我々のM$2$D-LIFは、Fusion Degradation現象を効果的に軽減し、以前のSOTA検出器より優れている。
論文参考訳（メタデータ） (2025-03-14T18:15:53Z)
Multimodal Industrial Anomaly Detection by Crossmodal Reverse Distillation [15.89869857998053]
マルチブランチ設計に基づくクロスモーダル逆蒸留(CRD)を提案する。独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。本手法は,マルチモーダル異常検出および局所化における最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-12T05:26:50Z)
Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文参考訳（メタデータ） (2024-11-06T10:44:15Z)
Analytic Continual Test-Time Adaptation for Multi-Modality Corruption [23.545997349882857]
テスト時間適応(TTA)は、トレーニング済みのモデルがソースとターゲットデータセット間のギャップを埋めることを支援することを目的としている。本稿では,MM-CTTAタスクのためのMDAA(Multi-modality Dynamic Analytic Adapter)を提案する。 MDAAはMM-CTTA上での最先端性能を実現し,信頼性の高いモデル適応を実現する。
論文参考訳（メタデータ） (2024-10-29T01:21:24Z)
RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文参考訳（メタデータ） (2024-10-02T16:47:55Z)
DefectTwin: When LLM Meets Digital Twin for Railway Defect Inspection [5.601042583221173]
Digital Twin(DT)は、オブジェクト、プロセス、あるいはシステムがリアルタイム監視、シミュレーション、予測保守のために複製される。大規模言語モデル(LLM)のような最近の進歩は、従来のAIシステムに革命をもたらし、鉄道欠陥検査などの産業応用においてDTと組み合わせることで、大きな可能性を秘めている。鉄道における視覚的欠陥と視覚的欠陥の両方を分析するために,マルチモーダル・マルチモデル (M2) LLMベースのAIパイプラインを利用するDefectTwinを紹介した。
論文参考訳（メタデータ） (2024-08-26T22:32:31Z)
DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文参考訳（メタデータ） (2024-06-05T06:18:03Z)
AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文参考訳（メタデータ） (2024-05-21T17:17:17Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Borrowing Treasures from Neighbors: In-Context Learning for Multimodal Learning with Missing Modalities and Data Scarcity [9.811378971225727]
本稿では、欠落したモダリティに関する現在の研究を低データ体制に拡張する。フルモダリティデータと十分なアノテートされたトレーニングサンプルを取得することは、しばしばコストがかかる。本稿では,この2つの重要な問題に対処するために,検索強化したテキスト内学習を提案する。
論文参考訳（メタデータ） (2024-03-14T14:19:48Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)
Sparse Fusion for Multimodal Transformers [7.98117428941095]
Sparse Fusion Transformers (SFT) は, トランスの新しい多モード融合法である。我々のアイデアの鍵は、モダリティ間のモデリングに先立って単調なトークンセットを減らすスパースプールブロックである。最新の性能は、同様の実験条件下で複数のベンチマークで得られ、計算コストとメモリ要求の最大6倍の削減を報告している。
論文参考訳（メタデータ） (2021-11-23T16:43:49Z)
Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文参考訳（メタデータ） (2021-07-28T23:33:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。