論文の概要: FusWay: Multimodal hybrid fusion approach. Application to Railway Defect Detection
- arxiv url: http://arxiv.org/abs/2509.06987v1
- Date: Tue, 02 Sep 2025 10:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.001551
- Title: FusWay: Multimodal hybrid fusion approach. Application to Railway Defect Detection
- Title(参考訳): FusWay:マルチモーダルハイブリッド核融合法 : 鉄道欠陥検出への応用
- Authors: Alexey Zhukov, Jenny Benois-Pineau, Amira Youssef, Akka Zemmari, Mohamed Mosbah, Virginie Taillandier,
- Abstract要約: 本稿では、YOLOとVision Transformerのバックボーンを用いたドメインルールに基づく新しいマルチモーダル融合アーキテクチャを提案する。
YOLOv8nとViT(Vision Transformer)を統合し、複数の層から抽出した特徴マップを組み合わせる。
実世界の鉄道データを用いた実験により,マルチモーダル融合により,視力のみのアプローチに比べて精度と全体的な精度が0.2ポイント向上することが示された。
- 参考スコア(独自算出の注目度): 2.523757835773241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion is a multimedia technique that has become popular in the wide range of tasks where image information is accompanied by a signal/audio. The latter may not convey highly semantic information, such as speech or music, but some measures such as audio signal recorded by mics in the goal to detect rail structure elements or defects. While classical detection approaches such as You Only Look Once (YOLO) family detectors can be efficiently deployed for defect detection on the image modality, the single modality approaches remain limited. They yield an overdetection in case of the appearance similar to normal structural elements. The paper proposes a new multimodal fusion architecture built on the basis of domain rules with YOLO and Vision transformer backbones. It integrates YOLOv8n for rapid object detection with a Vision Transformer (ViT) to combine feature maps extracted from multiple layers (7, 16, and 19) and synthesised audio representations for two defect classes: rail Rupture and Surface defect. Fusion is performed between audio and image. Experimental evaluation on a real-world railway dataset demonstrates that our multimodal fusion improves precision and overall accuracy by 0.2 points compared to the vision-only approach. Student's unpaired t-test also confirms statistical significance of differences in the mean accuracy.
- Abstract(参考訳): マルチモーダル融合(マルチモーダルフュージョン、英: Multimodal fusion)は、画像情報に信号/オーディオが付随する幅広いタスクで普及しているマルチメディア技術である。
後者は、音声や音楽などの高度に意味のある情報を伝達しないが、マイクロホンによって記録された音声信号のように、レール構造要素や欠陥を検出するための手段もある。
You Only Look Once (YOLO)ファミリー検出器のような古典的な検出アプローチは、画像モダリティの欠陥検出に効率的に適用できるが、単一のモダリティアプローチは限定的である。
通常の構造要素に類似した外観の場合、過度に検出される。
本稿では、YOLOとVision Transformerのバックボーンを用いたドメインルールに基づく新しいマルチモーダル融合アーキテクチャを提案する。
YOLOv8nを高速物体検出のためにViT(Vision Transformer)と統合し、複数の層(7, 16, 19)から抽出された特徴マップと、2つの欠陥クラス(レール破断と表面欠陥)の合成オーディオ表現を組み合わせた。
融合は音声と画像の間で行われる。
実世界の鉄道データを用いた実験により,マルチモーダル融合により,視力のみのアプローチに比べて精度と全体的な精度が0.2ポイント向上することが示された。
学生のt-testは、平均精度の違いの統計的意義も確認する。
関連論文リスト
- Continuous Wavelet Transform and Siamese Network-Based Anomaly Detection in Multi-variate Semiconductor Process Time Series [0.11184789007828977]
半導体製造における異常予測には いくつか重要な課題があります
本稿では,機械学習を用いたMTSデータにおける異常検出のための新しい汎用的アプローチを提案する。
提案手法は,実FABプロセスの時系列データセット上で異常を識別する際の精度が高いことを示す。
論文 参考訳(メタデータ) (2025-07-01T11:10:19Z) - CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation [24.952907733127223]
クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。
1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
論文 参考訳(メタデータ) (2025-05-21T08:11:07Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Cross-Modal Learning for Anomaly Detection in Complex Industrial Process: Methodology and Benchmark [19.376814754500625]
複雑な産業プロセスにおける異常検出は、効率的で安定で安全な操作を確実にする上で重要な役割を担っている。
本稿では,マグネシウム溶融プロセスにおける視覚特徴(ビデオ)とプロセス変数(電流)の相関を探索し,異常検出を容易にするクロスモーダルトランスを提案する。
本稿では, マグネシウム溶融プロセスの先駆的なクロスモーダルベンチマークを行い, 同期的に取得したビデオデータと電流データを220万以上のサンプルで分析した。
論文 参考訳(メタデータ) (2024-06-13T11:40:06Z) - Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。
本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文 参考訳(メタデータ) (2023-03-01T15:48:27Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。