論文の概要: Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing
- arxiv url: http://arxiv.org/abs/2408.05307v2
- Date: Wed, 23 Oct 2024 03:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:00:35.999799
- Title: Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing
- Title(参考訳): レーザー添加物製造における機械学習を用いたその場監視のための音響・視覚的クロスモーダル知識伝達
- Authors: Jiarui Xie, Mutahar Safdar, Lequn Chen, Seung Ki Moon, Yaoyao Fiona Zhao,
- Abstract要約: 本稿では, LAM in-situ モニタリングのための相互モダリティ知識伝達手法について紹介する。
3つのCMKT法が提案され、セマンティックアライメント、完全教師付きマッピング、半教師付きマッピングである。
この2つのマッピング手法は、完全な教師付きおよび半教師付き学習アプローチを用いて、特徴を1つのモダリティから別のモダリティへと導出することで知識を伝達する。
- 参考スコア(独自算出の注目度): 2.592307869002029
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Various machine learning (ML)-based in-situ monitoring systems have been developed to detect anomalies and defects in laser additive manufacturing (LAM) processes. While multimodal fusion, which integrates data from visual, audio, and other modalities, can improve monitoring performance, it also increases hardware, computational, and operational costs due to the use of multiple sensor types. This paper introduces a cross-modality knowledge transfer (CMKT) methodology for LAM in-situ monitoring, which transfers knowledge from a source modality to a target modality. CMKT enhances the representativeness of the features extracted from the target modality, allowing the removal of source modality sensors during prediction. This paper proposes three CMKT methods: semantic alignment, fully supervised mapping, and semi-supervised mapping. The semantic alignment method establishes a shared encoded space between modalities to facilitate knowledge transfer. It employs a semantic alignment loss to align the distributions of identical groups (e.g., visual and audio defective groups) and a separation loss to distinguish different groups (e.g., visual defective and audio defect-free groups). The two mapping methods transfer knowledge by deriving features from one modality to another using fully supervised and semi-supervised learning approaches. In a case study for LAM in-situ defect detection, the proposed CMKT methods were compared with multimodal audio-visual fusion. The semantic alignment method achieved an accuracy of 98.7% while removing the audio modality during the prediction phase, which is comparable to the 98.2% accuracy obtained through multimodal fusion. Using explainable artificial intelligence, we discovered that semantic alignment CMKT can extract more representative features while reducing noise by leveraging the inherent correlations between modalities.
- Abstract(参考訳): レーザー添加物製造(LAM)プロセスにおける異常や欠陥を検出するために、機械学習(ML)に基づく様々なin-situモニタリングシステムを開発した。
視覚、オーディオ、その他のモダリティからのデータを統合するマルチモーダルフュージョンは、監視性能を向上させることができるが、複数のセンサータイプを使用することにより、ハードウェア、計算、運用コストも向上する。
本稿では,LAMインサイトモニタリングのための相互モダリティ・ナレッジ・トランスファー(CMKT)手法を提案する。
CMKTは、目標モダリティから抽出した特徴の表現性を向上し、予測中のソースモダリティセンサの除去を可能にする。
本稿では,意味的アライメント,完全教師付きマッピング,半教師付きマッピングという3つのCMKT手法を提案する。
セマンティックアライメント法は、モダリティ間の共有符号化空間を確立し、知識伝達を容易にする。
これは、同じグループ(例えば、視覚的および音声的欠陥群)の分布を整合させる意味的アライメント損失と、異なるグループ(例えば、視覚的欠陥と音声的欠陥のないグループ)を区別する分離損失を用いる。
この2つのマッピング手法は、完全な教師付きおよび半教師付き学習アプローチを用いて、特徴を1つのモダリティから別のモダリティへと導出することで知識を伝達する。
LAMインサイト欠陥検出のケーススタディでは,CMKT法とマルチモーダル・オーディオ・ビジュアル・フュージョンを比較した。
セマンティックアライメント法は、予測フェーズ中に音質を除去しながら98.7%の精度を達成し、これはマルチモーダル融合によって得られる98.2%の精度に匹敵する。
説明可能な人工知能を用いて,意味的アライメントCMKTは,モーダル間の固有相関を利用して,雑音を低減しつつ,より代表的な特徴を抽出できることを発見した。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。