論文の概要: VSLLaVA: a pipeline of large multimodal foundation model for industrial vibration signal analysis
- arxiv url: http://arxiv.org/abs/2409.07482v2
- Date: Mon, 01 Sep 2025 21:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 20:08:26.164948
- Title: VSLLaVA: a pipeline of large multimodal foundation model for industrial vibration signal analysis
- Title(参考訳): 産業振動信号解析のための大規模マルチモーダル基礎モデルのパイプラインVSLLaVA
- Authors: Qi Li, Xinran Zhang, Jinfeng Huang, Hongliang He, Feibin Zhang, Zhaoye Qin, Fulei Chu,
- Abstract要約: VSLLaVAは、専門家による知識指導と評価を利用して、信号分析のためのエンドツーエンドのLMMを作成する包括的パイプラインである。
本研究は, 複雑な産業応用のための基礎モデルの開発に有効なアプローチであることを示す。
- 参考スコア(独自算出の注目度): 17.856611893709793
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Large Multimodal Models (LMMs) excel in general multimodal tasks, they lack the domain-specific knowledge for industrial vibration signal analysis. This paper introduces VSLLaVA, a comprehensive pipeline that utilizes expert knowledge-guided instruction tuning and evaluation to create an end-to-end LMM for signal analysis. To achieve this, we construct a novel Signal-Question-Answer (SQA) dataset using an expert rule-based signal generator. This dataset facilitates a two-stage learning procedure. The first step is efficient instruction fine-tuning with Low-Rank Adaptation (LoRA), which imparts specialized signal identification capabilities. Subsequently, we designed a tailored Group Relative Policy Optimization (GRPO) to refine the reasoning capabilities and enhance classification robustness. Then, a dual-mode evaluation framework is proposed, combining an LLM referee with expert rules for semantic assessment using quantitative metrics for numerical and textual accuracy, which reveals that VSLLaVA significantly improves performance in signal type identification and parameter analysis, and makes progress in the identification and parameter analysis of fault-related signals. This research demonstrates a viable approach for developing specialized foundational models for complex industrial applications and marks a transition from conventional task-specific systems to a cohesive, interactive foundational model.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、一般的なマルチモーダルタスクにおいて優れているが、産業振動信号解析の分野固有の知識は欠如している。
本稿では,専門家による指導指導と評価を利用して,信号解析のためのエンドツーエンドLMMを作成する包括的パイプラインであるVSLLaVAを紹介する。
そこで我々は,エキスパートルールに基づく信号生成装置を用いて,新しいSQAデータセットを構築した。
このデータセットは、2段階の学習手順を促進する。
最初のステップはLow-Rank Adaptation (LoRA)による効率的な命令微調整であり、特殊信号識別機能を備えている。
その後、我々は、推論能力を洗練し、分類ロバスト性を高めるために、グループ相対政策最適化(GRPO)を設計した。
次に, 2重モード評価フレームワークを提案し, LLMレフェリーと, 数値的指標とテキスト的精度を用いたセマンティックアセスメントの専門ルールを組み合わせることにより, VSLLaVAは信号タイプ同定とパラメータ解析の性能を著しく向上し, 故障関連信号の識別とパラメータ解析の進歩を図っていることを明らかにした。
本研究は, 複雑な産業用特殊な基礎モデルを開発するための有効なアプローチを示し, 従来のタスク特化システムから, 凝集性, インタラクティブな基礎モデルへの移行を示す。
関連論文リスト
- Reasoning-Driven Multimodal LLM for Domain Generalization [72.00754603114187]
DomainBed-Reasoning データセットを用いた領域一般化における推論の役割について検討する。
MTCT(Multi-Task Cross-Training)とSARR(Self-Aligned Reasoning Regularization)の2つのコンポーネントからなるフレームワークであるRD-MLDGを提案する。
標準のDomainBedデータセットの実験は、RD-MLDGが補完的な最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-02-27T08:10:06Z) - Beyond Basic Specifications? A Systematic Study of Logical Constructs in LLM-based Specification Generation [29.231420590756954]
プログラム仕様の自動生成のための大規模言語モデル(LLM)は、検証効率を向上させるための有望な道として登場した。
既存の LLM 仕様生成フレームワークに論理構造を組み込むことを提案する。
我々は,様々な種類の構文構造が仕様生成フレームワークに与える影響について,実証的研究を行った。
論文 参考訳(メタデータ) (2026-01-31T13:19:40Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - SignalLLM: A General-Purpose LLM Agent Framework for Automated Signal Processing [36.22027224597969]
大規模言語モデル(LLM)は、強力な推論能力、幅広い汎用知識、文脈内学習、モーダル間伝達能力を提供する。
本稿では,SPタスクのための汎用LLMベースのエージェントフレームワークであるSignalLLMを紹介する。
コミュニケーションとセンシングにおける5つの代表的なタスクを通して,SignalLLMの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2025-09-21T18:54:54Z) - AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization [43.86757207244911]
2つのシナジスティックな革新を通して制限に対処する包括的フレームワークを提案する。
まず、地域識別から集中検査までモデルをガイドする多段階議論的推論プロセスを導入する。
第2に、分類精度と局所化監督を組み込んだ微粒化報酬機構を開発する。
論文 参考訳(メタデータ) (2025-08-06T08:00:27Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - RTNinja: a generalized machine learning framework for analyzing random telegraph noise signals in nanoelectronic devices [0.0]
RTNinjaは、ランダムな電信ノイズ信号の教師なし分析のための、完全に自動化された機械学習フレームワークである。
評価のために,広帯域信号対雑音比と音源の複雑さにまたがるラベル付きデータセットを生成するモンテカルロシミュレータを開発した。
この結果から,RTNinjaは無作為な電信ノイズ評価のための堅牢でスケーラブルでデバイスに依存しないツールであることがわかった。
論文 参考訳(メタデータ) (2025-07-11T09:09:01Z) - SAGE: A Visual Language Model for Anomaly Detection via Fact Enhancement and Entropy-aware Alignment [12.388954043805235]
VLM(Vision-Language Models)は、しばしば産業の異常検出と推論に苦しむ。
SAGEは、自己ガイドFact Enhancement (SFE)とEntropy-aware Direct Preference Optimization (E-DPO)を通じて、異常推論を強化するVLMベースのフレームワークである。
SAGEはゼロショットおよびワンショット設定下での産業異常データセット上での優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-07-10T17:23:42Z) - Additive decomposition of one-dimensional signals using Transformers [48.7025991956527]
一次元信号分解は、様々な科学分野において確立され広く使われている技術である。
近年の研究では、この問題に最新のディープラーニングモデルを適用すると、期待できる可能性を持った、エキサイティングで未探索な領域が現れることが示唆されている。
我々はTransformerアーキテクチャを利用して、信号を構成コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-06-06T10:09:40Z) - OmniAD: Detect and Understand Industrial Anomaly via Multimodal Reasoning [76.90511414963265]
我々は,微粒化解析のための異常検出と理解を統一するフレームワークであるOmniADを紹介した。
ビジュアル推論は、Text-as-Maskを活用することで詳細なインスペクションを提供する。
Visual Guided Textual Reasoningは、視覚知覚を統合することで包括的な分析を行う。
論文 参考訳(メタデータ) (2025-05-28T07:02:15Z) - Leveraging LLM Agents for Automated Optimization Modeling for SASP Problems: A Graph-RAG based Approach [7.790822602801334]
本稿では,検索拡張生成(RAG)技術に基づく自動モデリング手法を提案する。
提案手法(MAG-RAG)はいくつかのAOMベンチマークより優れている。
論文 参考訳(メタデータ) (2025-01-30T13:00:15Z) - Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。
LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (2024-10-03T17:36:33Z) - RF Challenge: The Data-Driven Radio Frequency Signal Separation Challenge [66.33067693672696]
本稿では、深層学習手法を利用したデータ駆動手法を用いて、高周波信号における干渉拒否の重大な問題に対処する。
本論文の主な貢献は、RF信号データセットであるRF Challengeの導入である。
論文 参考訳(メタデータ) (2024-09-13T13:53:41Z) - BearLLM: A Prior Knowledge-Enhanced Bearing Health Management Framework with Unified Vibration Signal Representation [8.401364944653146]
大規模言語モデル(BearLLM)を活用したベアリング型健康管理フレームワークを提案する。
BearLLMは、ユーザのプロンプトと振動信号を処理することで、複数のベアリング関連タスクを統合する。
私たちは、より有能な産業マルチモーダルモデルの構築に関する将来の研究を刺激するデータセット、モデル、コードを提供しています。
論文 参考訳(メタデータ) (2024-08-21T02:04:54Z) - SHIELD: LLM-Driven Schema Induction for Predictive Analytics in EV Battery Supply Chain Disruptions [52.90276059116822]
ShiELDは、大型言語モデル(LLM)とEVバッテリサプライチェーンリスクアセスメントのためのドメインの専門知識を組み合わせたものだ。
365の資料(2022-2023)から12,070段落を評価したところ、ShiELDは破壊予測においてベースラインGCNとLLM+prompt法より優れていた。
論文 参考訳(メタデータ) (2024-08-09T22:08:12Z) - A Transformer Model for Boundary Detection in Continuous Sign Language [55.05986614979846]
Transformerモデルは、分離された手話認識と連続手話認識の両方に使用される。
トレーニングプロセスは、入力されたビデオから抽出された手指キーポイントの特徴を豊かにする、孤立した手指ビデオを使用する。
トレーニングされたモデルと後処理の手法が組み合わさって、連続した手話ビデオ内の孤立した手話境界を検出する。
論文 参考訳(メタデータ) (2024-02-22T17:25:01Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Structural Vibration Signal Denoising Using Stacking Ensemble of Hybrid
CNN-RNN [0.0]
近年,生物工学の分野では振動信号の利用が増加している。
足音による振動は、人体や動物などの生体系の運動を分析するのに有用である。
本稿では,複数信号のアンサンブルと,再帰的および畳み込み型ニューラルネットワーク予測の両方を活用する新しいアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2023-03-11T00:49:45Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - SVM and ANN based Classification of EMG signals by using PCA and LDA [0.0]
筋電信号(MES)は、人体の筋肉を一次元パターンとして生成する。
Support Vector Machines (SVM) は n 次元超平面を識別し、入力特徴点の集合を異なるクラスに分離する技術である。
論文 参考訳(メタデータ) (2021-10-22T06:44:08Z) - Signal Transformer: Complex-valued Attention and Meta-Learning for
Signal Recognition [33.178794056273304]
本稿では,理論収束保証を伴う一般の非評価問題に対して,CAMEL(complex-valued Attentional MEta Learner)を提案する。
本報告では, 状態が小さい場合に, 提案したデータ認識実験の優位性を示す。
論文 参考訳(メタデータ) (2021-06-05T03:57:41Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - LoRD-Net: Unfolded Deep Detection Network with Low-Resolution Receivers [104.01415343139901]
本稿では,1ビット計測から情報シンボルを復元する「LoRD-Net」というディープ検出器を提案する。
LoRD-Netは、関心のシグナルを回復するためのタスクベースのアーキテクチャである。
無線通信における1ビット信号回復のためのレシーバアーキテクチャの評価を行った。
論文 参考訳(メタデータ) (2021-02-05T04:26:05Z) - Interpreting Deep Learning Models for Epileptic Seizure Detection on EEG
signals [4.748221780751802]
ディープラーニング(DL)は、しばしば人工知能ベースの医療意思決定支援の最先端とみなされます。
臨床現場では未だに実装されており、ニューラルネットワークモデルの解釈能力が不十分なため、臨床医の信頼は低い。
脳波信号に基づくてんかん発作のオンライン検出の文脈で解釈可能なDLモデルを開発することでこの問題に対処した。
論文 参考訳(メタデータ) (2020-12-22T11:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。