論文の概要: Transformer Based Machine Fault Detection From Audio Input
- arxiv url: http://arxiv.org/abs/2604.12733v1
- Date: Tue, 14 Apr 2026 13:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.464171
- Title: Transformer Based Machine Fault Detection From Audio Input
- Title(参考訳): 変圧器を用いた音声入力による機械故障検出
- Authors: Kiran Voderhobli Holla,
- Abstract要約: 本稿では,音データ解析におけるトランスフォーマー駆動型アーキテクチャの有効性を示す。
マシン故障検出の特定のタスクにおいて、彼らが生成した埋め込みとCNNを比較します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Sound AI is being increasingly used to predict machine failures. By attaching a microphone to the machine of interest, one can get real time data on machine behavior from the field. Traditionally, Convolutional Neural Net (CNN) architectures have been used to analyze spectrogram images generated from the sounds captured and predict if the machine is functioning as expected. CNN architectures seem to work well empirically even though they have biases like locality and parameter-sharing which may not be completely relevant for spectrogram analysis. With the successful application of transformer-based models in the field of image processing starting with Vision Transformer (ViT) in 2020, there has been significant interest in leveraging these in the field of Sound AI. Since transformer-based architectures have significantly lower inductive biases, they are expected to perform better than CNNs at spectrogram analysis given enough data. This paper demonstrates the effectiveness of transformer-driven architectures in analyzing Sound data and compares the embeddings they generate with CNNs on the specific task of machine fault detection.
- Abstract(参考訳): 近年、Sound AIは機械故障の予測にますます利用されている。
興味のあるマシンにマイクを付けることで、フィールドからマシンの動作に関するリアルタイムデータを取得できる。
伝統的に、畳み込みニューラルネットワーク(CNN)アーキテクチャは、捕捉された音から生成された分光画像を分析し、マシンが期待通りに機能しているかどうかを予測するために使われてきた。
CNNアーキテクチャは、局所性やパラメータ共有のようなバイアスがあり、スペクトログラム分析に完全には関係していないにもかかわらず、経験的にうまく機能しているように見える。
2020年にViT(Vision Transformer)から始まった画像処理分野におけるトランスフォーマーベースのモデルの適用の成功により、Sound AIの分野でこれらの活用に大きな関心が寄せられた。
トランスフォーマーベースのアーキテクチャはインダクティブバイアスが著しく低いため、十分なデータを得たスペクトル解析ではCNNよりも優れた性能が期待できる。
本稿では,音データ解析におけるトランスフォーマー駆動型アーキテクチャの有効性を実証し,機械故障検出の特定のタスクにおいて,CNNを用いて生成する埋め込みと比較する。
関連論文リスト
- Chirp Localization via Fine-Tuned Transformer Model: A Proof-of-Concept Study [0.23020018305241333]
脳波スペクトログラムのチャープ様パターンは発作ダイナミクスの鍵となるバイオマーカーである。
本研究では、視覚変換器(ViT)モデルとローランド適応(LoRA)を微調整することで、このギャップを埋める。
我々は、チャープパラメータを持つ10万のスペクトログラムを生成し、チャープローカライゼーションのための最初の大規模ベンチマークを作成した。
論文 参考訳(メタデータ) (2025-03-24T14:27:07Z) - Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors [44.5740422079]
標準的なデノベーション目的による事前トレーニングは、複数のアーキテクチャで劇的に向上することを示す。
先行研究とは対照的に、適切に事前訓練された場合の長距離アリーナでのS4の性能に適合するバニラトランスフォーマーが見つかる。
論文 参考訳(メタデータ) (2023-10-04T17:17:06Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Detecting train driveshaft damages using accelerometer signals and
Differential Convolutional Neural Networks [67.60224656603823]
本稿では,高度2次元畳み込みニューラルネットワーク(CNN)アーキテクチャに基づく鉄道軸状態監視システムの開発を提案する。
その結果,鉄道軸受振動信号を時間周波数領域表現,すなわち分光図に変換し,そのひび割れに応じて2次元CNNを訓練する。
論文 参考訳(メタデータ) (2022-11-15T15:04:06Z) - SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker
Embedding and Vision Transformers [0.0]
本稿では,音声認識のための新しい学習方法を提案する。
これは、CCT(Compact Convolutional Transformers)とスピーカー埋め込みの組み合わせに基づいている。
クロスコーパス設定でいくつかのベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2022-11-04T10:49:44Z) - Audio Transformers [3.1972247646168523]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
我々のモデルは、畳み込みモデルより優れて、アート結果の状態を生成します。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Tiny Transformers for Environmental Sound Classification at the Edge [0.6193838300896449]
本研究は,エッジにおける環境音の分類分野における音響モデルの訓練手法を提案する。
具体的には、トランスフォーマーの設計とトレーニングを行い、オフィスのサウンドをオーディオクリップに分類します。
その結果、BERTベースのトランスフォーマーはメルスペクトログラムで訓練され、99.85%のパラメータでCNNより優れていた。
論文 参考訳(メタデータ) (2021-03-22T20:12:15Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。