論文の概要: FISHER: A Foundation Model for Multi-Modal Industrial Signal Comprehensive Representation
- arxiv url: http://arxiv.org/abs/2507.16696v1
- Date: Tue, 22 Jul 2025 15:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.184293
- Title: FISHER: A Foundation Model for Multi-Modal Industrial Signal Comprehensive Representation
- Title(参考訳): FISHER:マルチモーダル産業信号包括表現の基礎モデル
- Authors: Pingyi Fan, Anbai Jiang, Shuwei Zhang, Zhiqiang Lv, Bing Han, Xinhu Zheng, Wenrui Liang, Junjie Li, Wei-Qiang Zhang, Yanmin Qian, Xie Chen, Cheng Lu, Jia Liu,
- Abstract要約: FISHERはマルチモーダル産業信号解釈表現の基礎モデルである。
FISHERはSTFTサブバンドをモデリングユニットとし、事前トレーニングのために教師の学生SSLフレームワークを採用する。
上位のSSLモデルと比較して、FISHERは汎用性と優れた機能を示し、パフォーマンスは5.03%まで向上した。
- 参考スコア(独自算出の注目度): 49.48189836213443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid deployment of SCADA systems, how to effectively analyze industrial signals and detect abnormal states is an urgent need for the industry. Due to the significant heterogeneity of these signals, which we summarize as the M5 problem, previous works only focus on small sub-problems and employ specialized models, failing to utilize the synergies between modalities and the powerful scaling law. However, we argue that the M5 signals can be modeled in a unified manner due to the intrinsic similarity. As a result, we propose FISHER, a Foundation model for multi-modal Industrial Signal compreHEnsive Representation. To support arbitrary sampling rates, FISHER considers the increment of sampling rate as the concatenation of sub-band information. Specifically, FISHER takes the STFT sub-band as the modeling unit and adopts a teacher student SSL framework for pre-training. We also develop the RMIS benchmark, which evaluates the representations of M5 industrial signals on multiple health management tasks. Compared with top SSL models, FISHER showcases versatile and outstanding capabilities with a general performance gain up to 5.03%, along with much more efficient scaling curves. We also investigate the scaling law on downstream tasks and derive potential avenues for future works. FISHER is now open-sourced on https://github.com/jianganbai/FISHER
- Abstract(参考訳): SCADAシステムの迅速な展開により、産業信号の効率的な分析と異常状態の検出が産業にとって急務である。
M5問題として要約したこれらの信号の顕著な不均一性のため、以前の研究は小さなサブプロブレムにのみ焦点をあて、特殊なモデルを採用し、モダリティと強力なスケーリング法則の相乗効果を生かしていない。
しかし、本質的な類似性のため、M5信号は統一的にモデル化できると論じる。
その結果,マルチモーダル産業信号理解表現の基礎モデルであるFISHERを提案する。
任意のサンプリングレートをサポートするため、FISHERはサンプリングレートの増大をサブバンド情報の連結とみなす。
特に、FISHERはSTFTサブバンドをモデリングユニットとし、事前トレーニングのために教師の学生SSLフレームワークを採用する。
また、複数の健康管理タスクにおけるM5産業信号の表現を評価するRMISベンチマークも開発した。
上位のSSLモデルと比較すると、FISHERは汎用性と優れた機能を示し、パフォーマンスは5.03%まで向上し、より効率的なスケーリング曲線を実現している。
また、下流タスクのスケーリング法則について検討し、今後の作業への潜在的な道筋を導出する。
FISHERがhttps://github.com/jianganbai/FISHERでオープンソース化
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - 6G WavesFM: A Foundation Model for Sensing, Communication, and Localization [6.70088826174291]
本稿では,無線基礎モデル(WFM)フレームワークについて紹介する。
提案アーキテクチャでは,共有ビジョントランスフォーマー(ViT)バックボーンとタスク固有の多層パーセプトロンヘッドを組み合わせるとともに,パラメータ効率の良い微調整のためのローランド適応(LoRA)を組み込む。
我々は、統一WFMが多様なタスクをサポートし、性能と効率の両方において大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2025-04-18T22:51:35Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving [19.388562622309838]
大規模なマルチモーダルモデル(LMM)は、画像、ビデオ、音声をテキストを超えて理解する能力を示す。
本稿では,6つの代表的なオープンソースモデルに対して,デコーダのみとクロスアテンションという,2つの著名なLMMアーキテクチャを包括的に解析する。
本稿では,モジュール型LMMサービスシステムであるModServeを提案する。
論文 参考訳(メタデータ) (2025-02-02T22:10:40Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - A Generative Approach for Production-Aware Industrial Network Traffic
Modeling [70.46446906513677]
ドイツにあるTrumpf工場に配備されたレーザー切断機から発生するネットワークトラフィックデータについて検討した。
我々は、トラフィック統計を分析し、マシンの内部状態間の依存関係をキャプチャし、ネットワークトラフィックを生産状態依存プロセスとしてモデル化する。
可変オートエンコーダ(VAE)、条件付き可変オートエンコーダ(CVAE)、生成逆ネットワーク(GAN)など、様々な生成モデルの性能の比較を行った。
論文 参考訳(メタデータ) (2022-11-11T09:46:58Z) - Long short-term memory networks and laglasso for bond yield forecasting:
Peeping inside the black box [10.412912723760172]
長期記憶(LSTM)ネットワークを用いた結合収率予測の最初の研究を行った。
我々は,シーケンス・ツー・シーケンス・アーキテクチャを用いて,メモリセル内の選択された位置におけるLSTM信号の時間的計算を行う。
論文 参考訳(メタデータ) (2020-05-05T14:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。