論文の概要: A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations
- arxiv url: http://arxiv.org/abs/2512.06708v1
- Date: Sun, 07 Dec 2025 07:38:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.481178
- Title: A Novel Multimodal RUL Framework for Remaining Useful Life Estimation with Layer-wise Explanations
- Title(参考訳): 階層的説明を伴う有用寿命推定のための新しいマルチモーダルRULフレームワーク
- Authors: Waleed Razzaq, Yun-Bo Zhao,
- Abstract要約: 転がり要素軸受は機械故障の最も頻発する原因の一つである。
転がり要素軸受は機械故障の最も頻発する原因の一つである。
既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
- 参考スコア(独自算出の注目度): 2.312232949770907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the Remaining Useful Life (RUL) of mechanical systems is pivotal in Prognostics and Health Management (PHM). Rolling-element bearings are among the most frequent causes of machinery failure, highlighting the need for robust RUL estimation methods. Existing approaches often suffer from poor generalization, lack of robustness, high data demands, and limited interpretability. This paper proposes a novel multimodal-RUL framework that jointly leverages image representations (ImR) and time-frequency representations (TFR) of multichannel, nonstationary vibration signals. The architecture comprises three branches: (1) an ImR branch and (2) a TFR branch, both employing multiple dilated convolutional blocks with residual connections to extract spatial degradation features; and (3) a fusion branch that concatenates these features and feeds them into an LSTM to model temporal degradation patterns. A multi-head attention mechanism subsequently emphasizes salient features, followed by linear layers for final RUL regression. To enable effective multimodal learning, vibration signals are converted into ImR via the Bresenham line algorithm and into TFR using Continuous Wavelet Transform. We also introduce multimodal Layer-wise Relevance Propagation (multimodal-LRP), a tailored explainability technique that significantly enhances model transparency. The approach is validated on the XJTU-SY and PRONOSTIA benchmark datasets. Results show that our method matches or surpasses state-of-the-art baselines under both seen and unseen operating conditions, while requiring ~28 % less training data on XJTU-SY and ~48 % less on PRONOSTIA. The model exhibits strong noise resilience, and multimodal-LRP visualizations confirm the interpretability and trustworthiness of predictions, making the framework highly suitable for real-world industrial deployment.
- Abstract(参考訳): 機械系の残留実用寿命(RUL)の推定は、予後・健康管理(PHM)において重要である。
転がり要素軸受は機械故障の最も頻発する原因の一つであり、ロバストなRUL推定法の必要性を強調している。
既存のアプローチは、しばしば、一般化の貧弱、堅牢性の欠如、高いデータ要求、限定的な解釈可能性に悩まされる。
本稿では,マルチチャネル非定常振動信号の画像表現(ImR)と時間周波数表現(TFR)を併用した新しいマルチモーダルRULフレームワークを提案する。
本発明のアーキテクチャは,(1)ImR分岐と(2)TFR分岐と,(2)空間劣化特徴を抽出するために残留結合を有する複数の拡張畳み込みブロックを用い,(3)これらの特徴を結合してLSTMに供給し,時間劣化パターンをモデル化する融合分岐とを含む。
マルチヘッドアテンション機構はその後、健全な特徴を強調し、続いて最終RUL回帰のための線形層が続く。
効果的なマルチモーダル学習を実現するため、ブレセナム線アルゴリズムを用いて振動信号をImRに変換し、連続ウェーブレット変換を用いてTFRに変換する。
また、モデルの透明性を著しく向上するカスタマイズされた説明可能性技術であるマルチモーダル・レイヤワイズ・レバレンス・プロパゲーション(multimodal-LRP)を導入する。
この手法はXJTU-SY と PRONOSTIA のベンチマークデータセットで検証されている。
以上の結果から,XJTU-SYでは28 %,PRONOSTIAでは48 %のトレーニングデータが必要であった。
モデルは強い耐雑音性を示し、マルチモーダルLRP可視化は予測の解釈可能性と信頼性を確認し、現実世界の産業展開に非常に適している。
関連論文リスト
- Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments [10.028232479762075]
本稿では,マルチモーダルパイプラインであるMPRFについて述べる。
S3LIデータセットとS3LI Vulcanoデータセットの実験は、MPRFが最先端の検索方法よりも精度が高いことを示している。
SLAMバックエンドに適した解釈可能な対応を提供することにより、MPRFは精度、効率、信頼性の間の良好なトレードオフを達成する。
論文 参考訳(メタデータ) (2025-11-07T16:30:35Z) - LUMA-RAG: Lifelong Multimodal Agents with Provably Stable Streaming Alignment [0.0]
Retrieval-Augmented Generationは、検証可能な証拠で大規模言語モデルのアウトプットを基礎づける主要なパラダイムとして登場した。
LUMA-RAGは,3つの重要なイノベーションを特徴とする,生涯にわたるマルチモーダルエージェントアーキテクチャである。
実験では、堅牢なテキスト・ツー・イメージ検索(Recall@10 = 0.94)、製品量子化オフロードによる優雅なパフォーマンス劣化、安定したオーディオ・ツー・イメージランキング(Safe@1 = 1.0)が示されている。
論文 参考訳(メタデータ) (2025-11-04T08:47:12Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。