論文の概要: ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal
- arxiv url: http://arxiv.org/abs/2508.14689v1
- Date: Wed, 20 Aug 2025 13:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.461075
- Title: ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal
- Title(参考訳): ECHO:可変長信号の周波数対応階層符号化
- Authors: Yucong Zhang, Juan Liu, Ming Li,
- Abstract要約: そこで本研究では,帯域分割アーキテクチャと相対周波数位置埋め込みを融合した新しい基礎モデルを提案する。
機械信号符号化のための大規模ベンチマークであるSIRENについて評価を行った。
- 参考スコア(独自算出の注目度): 8.198335525246243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained foundation models have demonstrated remarkable success in vision and language, yet their potential for general machine signal modeling-covering acoustic, vibration, and other industrial sensor data-remains under-explored. Existing approach using sub-band-based encoders has achieved competitive results but are limited by fixed input lengths, and the absence of explicit frequency positional encoding. In this work, we propose a novel foundation model that integrates an advanced band-split architecture with relative frequency positional embeddings, enabling precise spectral localization across arbitrary sampling configurations. The model supports inputs of arbitrary length without padding or segmentation, producing a concise embedding that retains both temporal and spectral fidelity. We evaluate our method on SIREN (https://github.com/yucongzh/SIREN), a newly introduced large-scale benchmark for machine signal encoding that unifies multiple datasets, including all DCASE task 2 challenges (2020-2025) and widely-used industrial signal corpora. Experimental results demonstrate consistent state-of-the-art performance in anomaly detection and fault identification, confirming the effectiveness and generalization capability of the proposed model. We open-sourced ECHO on https://github.com/yucongzh/ECHO.
- Abstract(参考訳): 事前訓練された基礎モデルは、視覚と言語において顕著な成功を収めてきたが、一般的な機械信号モデリングの可能性を秘めている。
サブバンドベースのエンコーダを用いた既存のアプローチは、競合する結果を得たが、固定入力長と明示周波数位置符号化の欠如により制限されている。
本研究では,帯域分割アーキテクチャと相対周波数位置埋め込みを統合した新しい基礎モデルを提案する。
このモデルは、パッドやセグメンテーションを使わずに任意の長さの入力をサポートし、時間的およびスペクトル的忠実性の両方を保持する簡潔な埋め込みを生成する。
我々は,SIREN (https://github.com/yucongzh/SIREN) という,複数のデータセットを統一する機械信号符号化のための大規模ベンチマークを新たに導入した。
実験結果から,異常検出および故障同定における一貫した最先端性能を示し,提案モデルの有効性と一般化能力を確認した。
我々はECHOをhttps://github.com/yucongzh/ECHOでオープンソース化しました。
関連論文リスト
- Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - BearLLM: A Prior Knowledge-Enhanced Bearing Health Management Framework with Unified Vibration Signal Representation [8.401364944653146]
大規模言語モデル(BearLLM)を活用したベアリング型健康管理フレームワークを提案する。
BearLLMは、ユーザのプロンプトと振動信号を処理することで、複数のベアリング関連タスクを統合する。
私たちは、より有能な産業マルチモーダルモデルの構築に関する将来の研究を刺激するデータセット、モデル、コードを提供しています。
論文 参考訳(メタデータ) (2024-08-21T02:04:54Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文 参考訳(メタデータ) (2023-11-27T13:53:53Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。