論文の概要: Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing
- arxiv url: http://arxiv.org/abs/2408.05307v1
- Date: Fri, 9 Aug 2024 19:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:32:21.873564
- Title: Audio-visual cross-modality knowledge transfer for machine learning-based in-situ monitoring in laser additive manufacturing
- Title(参考訳): レーザー添加物製造における機械学習を用いたその場監視のための音響・視覚的クロスモーダル知識伝達
- Authors: Jiarui Xie, Mutahar Safdar, Lequn Chen, Seung Ki Moon, Yaoyao Fiona Zhao,
- Abstract要約: マルチモーダル融合は、複数のモーダルからデータを取得し、統合することにより、その場での監視性能を向上させることができる。
本稿では,資源から目標モダリティへ知識を伝達する相互モダリティ・ナレッジ・トランスファー(CMKT)手法を提案する。
- 参考スコア(独自算出の注目度): 2.592307869002029
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Various machine learning (ML)-based in-situ monitoring systems have been developed to detect laser additive manufacturing (LAM) process anomalies and defects. Multimodal fusion can improve in-situ monitoring performance by acquiring and integrating data from multiple modalities, including visual and audio data. However, multimodal fusion employs multiple sensors of different types, which leads to higher hardware, computational, and operational costs. This paper proposes a cross-modality knowledge transfer (CMKT) methodology that transfers knowledge from a source to a target modality for LAM in-situ monitoring. CMKT enhances the usefulness of the features extracted from the target modality during the training phase and removes the sensors of the source modality during the prediction phase. This paper proposes three CMKT methods: semantic alignment, fully supervised mapping, and semi-supervised mapping. Semantic alignment establishes a shared encoded space between modalities to facilitate knowledge transfer. It utilizes a semantic alignment loss to align the distributions of the same classes (e.g., visual defective and audio defective classes) and a separation loss to separate the distributions of different classes (e.g., visual defective and audio defect-free classes). The two mapping methods transfer knowledge by deriving the features of one modality from the other modality using fully supervised and semi-supervised learning. The proposed CMKT methods were implemented and compared with multimodal audio-visual fusion in an LAM in-situ anomaly detection case study. The semantic alignment method achieves a 98.4% accuracy while removing the audio modality during the prediction phase, which is comparable to the accuracy of multimodal fusion (98.2%).
- Abstract(参考訳): レーザー添加性製造(LAM)プロセス異常や欠陥を検出するために、機械学習(ML)ベースのその場監視システムを開発した。
マルチモーダル融合は、視覚データや音声データを含む複数のモーダルからのデータを取得し、統合することにより、その場での監視性能を向上させることができる。
しかし、マルチモーダル融合は異なるタイプの複数のセンサーを使用し、より高いハードウェア、計算、運用コストをもたらす。
本稿では,資源から目標モダリティへ知識を伝達する相互モダリティ・ナレッジ・トランスファー(CMKT)手法を提案する。
CMKTは、トレーニングフェーズ中にターゲットモーダリティから抽出した特徴の有用性を高め、予測フェーズ中にソースモーダリティのセンサを除去する。
本稿では,意味的アライメント,完全教師付きマッピング,半教師付きマッピングという3つのCMKT手法を提案する。
意味的アライメントは、知識伝達を促進するためにモダリティ間の共有エンコード空間を確立する。
セマンティックアライメントの損失を利用して、同じクラスの分布(例えば、視覚欠陥クラスとオーディオ欠陥クラス)をアライメントし、分離損失を使って異なるクラスの分布(例えば、視覚欠陥クラスとオーディオ欠陥なしクラス)を分離する。
この2つのマッピング手法は,教師付きおよび半教師付き学習を用いて,1つのモダリティの特徴を他のモダリティから導き出すことによって知識を伝達する。
CMKT法とマルチモーダル・オーディオ・視覚融合との比較を行った。
セマンティックアライメント法は、予測フェーズ中に音声モダリティを除去しながら98.4%の精度を達成し、これはマルチモーダル融合の精度(98.2%)に匹敵する。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Statistical control for spatio-temporal MEG/EEG source imaging with
desparsified multi-task Lasso [102.84915019938413]
脳磁図(MEG)や脳電図(EEG)のような非侵襲的手法は、非侵襲的手法を約束する。
ソースローカライゼーション(ソースイメージング)の問題は、しかしながら、高次元の統計的推測問題を引き起こす。
この問題に対処するために,分離されたマルチタスクラッソ(ecd-MTLasso)のアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-09-29T21:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。