論文の概要: VSLLaVA: a pipeline of large multimodal foundation model for industrial vibration signal analysis
- arxiv url: http://arxiv.org/abs/2409.07482v2
- Date: Mon, 01 Sep 2025 21:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 20:08:26.164948
- Title: VSLLaVA: a pipeline of large multimodal foundation model for industrial vibration signal analysis
- Title(参考訳): 産業振動信号解析のための大規模マルチモーダル基礎モデルのパイプラインVSLLaVA
- Authors: Qi Li, Xinran Zhang, Jinfeng Huang, Hongliang He, Feibin Zhang, Zhaoye Qin, Fulei Chu,
- Abstract要約: VSLLaVAは、専門家による知識指導と評価を利用して、信号分析のためのエンドツーエンドのLMMを作成する包括的パイプラインである。
本研究は, 複雑な産業応用のための基礎モデルの開発に有効なアプローチであることを示す。
- 参考スコア(独自算出の注目度): 17.856611893709793
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Large Multimodal Models (LMMs) excel in general multimodal tasks, they lack the domain-specific knowledge for industrial vibration signal analysis. This paper introduces VSLLaVA, a comprehensive pipeline that utilizes expert knowledge-guided instruction tuning and evaluation to create an end-to-end LMM for signal analysis. To achieve this, we construct a novel Signal-Question-Answer (SQA) dataset using an expert rule-based signal generator. This dataset facilitates a two-stage learning procedure. The first step is efficient instruction fine-tuning with Low-Rank Adaptation (LoRA), which imparts specialized signal identification capabilities. Subsequently, we designed a tailored Group Relative Policy Optimization (GRPO) to refine the reasoning capabilities and enhance classification robustness. Then, a dual-mode evaluation framework is proposed, combining an LLM referee with expert rules for semantic assessment using quantitative metrics for numerical and textual accuracy, which reveals that VSLLaVA significantly improves performance in signal type identification and parameter analysis, and makes progress in the identification and parameter analysis of fault-related signals. This research demonstrates a viable approach for developing specialized foundational models for complex industrial applications and marks a transition from conventional task-specific systems to a cohesive, interactive foundational model.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、一般的なマルチモーダルタスクにおいて優れているが、産業振動信号解析の分野固有の知識は欠如している。
本稿では,専門家による指導指導と評価を利用して,信号解析のためのエンドツーエンドLMMを作成する包括的パイプラインであるVSLLaVAを紹介する。
そこで我々は,エキスパートルールに基づく信号生成装置を用いて,新しいSQAデータセットを構築した。
このデータセットは、2段階の学習手順を促進する。
最初のステップはLow-Rank Adaptation (LoRA)による効率的な命令微調整であり、特殊信号識別機能を備えている。
その後、我々は、推論能力を洗練し、分類ロバスト性を高めるために、グループ相対政策最適化(GRPO)を設計した。
次に, 2重モード評価フレームワークを提案し, LLMレフェリーと, 数値的指標とテキスト的精度を用いたセマンティックアセスメントの専門ルールを組み合わせることにより, VSLLaVAは信号タイプ同定とパラメータ解析の性能を著しく向上し, 故障関連信号の識別とパラメータ解析の進歩を図っていることを明らかにした。
本研究は, 複雑な産業用特殊な基礎モデルを開発するための有効なアプローチを示し, 従来のタスク特化システムから, 凝集性, インタラクティブな基礎モデルへの移行を示す。
関連論文リスト
- RTNinja: a generalized machine learning framework for analyzing random telegraph noise signals in nanoelectronic devices [0.0]
RTNinjaは、ランダムな電信ノイズ信号の教師なし分析のための、完全に自動化された機械学習フレームワークである。
評価のために,広帯域信号対雑音比と音源の複雑さにまたがるラベル付きデータセットを生成するモンテカルロシミュレータを開発した。
この結果から,RTNinjaは無作為な電信ノイズ評価のための堅牢でスケーラブルでデバイスに依存しないツールであることがわかった。
論文 参考訳(メタデータ) (2025-07-11T09:09:01Z) - Additive decomposition of one-dimensional signals using Transformers [48.7025991956527]
一次元信号分解は、様々な科学分野において確立され広く使われている技術である。
近年の研究では、この問題に最新のディープラーニングモデルを適用すると、期待できる可能性を持った、エキサイティングで未探索な領域が現れることが示唆されている。
我々はTransformerアーキテクチャを利用して、信号を構成コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-06T10:09:40Z) - OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。
ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。
Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文 参考訳(メタデータ) (2025-05-28T07:02:15Z) - Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - RF Challenge: The Data-Driven Radio Frequency Signal Separation Challenge [66.33067693672696]
本稿では、深層学習手法を利用したデータ駆動手法を用いて、高周波信号における干渉拒否の重大な問題に対処する。
本論文の主な貢献は、RF信号データセットであるRF Challengeの導入である。
論文 参考訳(メタデータ) (2024-09-13T13:53:41Z) - BearLLM: A Prior Knowledge-Enhanced Bearing Health Management Framework with Unified Vibration Signal Representation [8.401364944653146]
大規模言語モデル(BearLLM)を活用したベアリング型健康管理フレームワークを提案する。
BearLLMは、ユーザのプロンプトと振動信号を処理することで、複数のベアリング関連タスクを統合する。
私たちは、より有能な産業マルチモーダルモデルの構築に関する将来の研究を刺激するデータセット、モデル、コードを提供しています。
論文 参考訳(メタデータ) (2024-08-21T02:04:54Z) - SHIELD: LLM-Driven Schema Induction for Predictive Analytics in EV Battery Supply Chain Disruptions [52.90276059116822]
ShiELDは、大型言語モデル(LLM)とEVバッテリサプライチェーンリスクアセスメントのためのドメインの専門知識を組み合わせたものだ。
365の資料(2022-2023)から12,070段落を評価したところ、ShiELDは破壊予測においてベースラインGCNとLLM+prompt法より優れていた。
論文 参考訳(メタデータ) (2024-08-09T22:08:12Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Structural Vibration Signal Denoising Using Stacking Ensemble of Hybrid
CNN-RNN [0.0]
近年,生物工学の分野では振動信号の利用が増加している。
足音による振動は、人体や動物などの生体系の運動を分析するのに有用である。
本稿では,複数信号のアンサンブルと,再帰的および畳み込み型ニューラルネットワーク予測の両方を活用する新しいアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T00:49:45Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - SVM and ANN based Classification of EMG signals by using PCA and LDA [0.0]
筋電信号(MES)は、人体の筋肉を一次元パターンとして生成する。
Support Vector Machines (SVM) は n 次元超平面を識別し、入力特徴点の集合を異なるクラスに分離する技術である。
論文 参考訳(メタデータ) (2021-10-22T06:44:08Z) - Signal Transformer: Complex-valued Attention and Meta-Learning for
Signal Recognition [33.178794056273304]
本稿では,理論収束保証を伴う一般の非評価問題に対して,CAMEL(complex-valued Attentional MEta Learner)を提案する。
本報告では, 状態が小さい場合に, 提案したデータ認識実験の優位性を示す。
論文 参考訳(メタデータ) (2021-06-05T03:57:41Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Interpreting Deep Learning Models for Epileptic Seizure Detection on EEG
signals [4.748221780751802]
ディープラーニング(DL)は、しばしば人工知能ベースの医療意思決定支援の最先端とみなされます。
臨床現場では未だに実装されており、ニューラルネットワークモデルの解釈能力が不十分なため、臨床医の信頼は低い。
脳波信号に基づくてんかん発作のオンライン検出の文脈で解釈可能なDLモデルを開発することでこの問題に対処した。
論文 参考訳(メタデータ) (2020-12-22T11:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。