論文の概要: Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification
- arxiv url: http://arxiv.org/abs/2606.02341v2
- Date: Fri, 05 Jun 2026 18:03:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.78425
- Title: Parameter-efficient Dual-encoder Architecture with Differentiable Choquet Integral Fusion for Underwater Acoustic Classification
- Title(参考訳): 水中音響分類のための可変チェケット積分核融合を用いたパラメータ効率の良いデュアルエンコーダアーキテクチャ
- Authors: Amirmohammad Mohammadi, Joshua Peeples, Alexandra Van Dine,
- Abstract要約: 本稿では、音響波形とスペクトログラムを同時に処理するデュアルエンコーダニューラルアーキテクチャを提案する。
潜在的な非対称なチャネル歪みによって最小に劣化した表現に動的に注意を移すことにより、提案したゲーティング機構は水中環境の非定常的課題を緩和する。
- 参考スコア(独自算出の注目度): 43.92337343771302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Underwater acoustic classification has a wide array of oceanic applications, but faces challenges due to an increasingly complex acoustic environment. Waveform and spectrogram representations have been primarily used as acoustic data features for classification tasks in this domain. Spectrograms model harmonic dependencies, but these reduced representations can filter out acoustic features relevant for discrimination. While phase information from the waveform allows full characterization of the signal, the original waveform can be noisy and complex, rendering this representation difficult for models to process directly. This paper proposes a dual-encoder neural architecture to simultaneously process acoustic waveforms and spectrograms, leveraging pre-trained backbones and parameter-efficient fine-tuning modules, enabling a domain adaptation. To combine these adapted branches, a novel differentiable fuzzy aggregation mechanism based on the Choquet integral is introduced to balance the temporal and spectral representations. This fusion strategy not only yields higher classification accuracy but also provides interpretability. Specifically, by analyzing the learned fuzzy measures, insights are revealed about class-specific shifts in the network's representation reliance. By dynamically shifting attention to the representation least corrupted by potential asymmetric channel distortions, the proposed gating mechanism mitigates the non-stationary challenges of the underwater environment. Evaluations on the DeepShip and ShipsEar datasets demonstrate that the proposed architecture achieves classification improvements over independent single-encoder baselines, while simultaneously restricting the trainable parameter space. This mitigates the risk of overfitting on limited acoustic datasets while alleviating the computational costs associated with fully fine-tuning foundation models.
- Abstract(参考訳): 水中音響分類には様々な海洋用途があるが、より複雑な音響環境のために課題に直面している。
波形とスペクトログラムの表現は、この領域における分類タスクの音響データの特徴として主に使われてきた。
スペクトログラムは高調波依存性をモデル化するが、これらの減少した表現は、識別に関連する音響的特徴をフィルタリングすることができる。
波形からの位相情報は信号の完全な特徴付けを可能にするが、元の波形はノイズがあり複雑であり、モデルが直接処理することが困難である。
本稿では、事前学習したバックボーンとパラメータ効率の良い微調整モジュールを利用して、音響波形とスペクトログラムを同時に処理するデュアルエンコーダニューラルアーキテクチャを提案する。
これらの適応分岐を組み合わせるために、チョーケ積分に基づく新しい微分可能なファジィ集約機構を導入し、時間的およびスペクトル的表現のバランスをとる。
この融合戦略は、より高い分類精度を得るだけでなく、解釈可能性も提供する。
具体的には、学習したファジィ測度を解析することにより、ネットワークの表現依存におけるクラス固有のシフトに関する洞察を明らかにする。
潜在的な非対称なチャネル歪みによって最小に劣化した表現に動的に注意を移すことにより、提案したゲーティング機構は水中環境の非定常的課題を緩和する。
DeepShipとShipsEarデータセットの評価では、トレーニング可能なパラメータ空間を同時に制限しながら、提案アーキテクチャが独立した単一エンコーダベースラインの分類改善を実現することが示されている。
これにより、完全な微調整基礎モデルに関連する計算コストを軽減しつつ、限られた音響データセットに過度に適合するリスクを軽減できる。
関連論文リスト
- Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。
本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-20T10:05:58Z) - Graph Embedding with Mel-spectrograms for Underwater Acoustic Target Recognition [3.4185611249587278]
UATR-GTransformerは、Transformerアーキテクチャとグラフニューラルネットワーク(GNN)を統合する非ユークリッドディープラーニングモデルである。
提案モデルでは, 海洋工学への応用の可能性を強調し, 周波数領域情報を効果的に抽出する。
UATR-GTransformerが最先端の手法と競合する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-12-12T13:25:54Z) - Wave-Based Semantic Memory with Resonance-Based Retrieval: A Phase-Aware Alternative to Vector Embedding Stores [51.56484100374058]
本稿では,波動パターン$psi(x) = A(x) eiphi(x)$として知識をモデル化し,共振に基づく干渉によってそれを検索する新しいフレームワークを提案する。
このアプローチは振幅情報と位相情報の両方を保存し、より表現的かつ堅牢な意味的類似性を実現する。
論文 参考訳(メタデータ) (2025-08-21T10:13:24Z) - Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文 参考訳(メタデータ) (2025-06-20T18:13:30Z) - DEMONet: Underwater Acoustic Target Recognition based on Multi-Expert Network and Cross-Temporal Variational Autoencoder [22.271499386492533]
複雑な水中環境のため、実世界のシナリオで堅牢な水中音響認識システムを構築することは困難である。
ノイズの封筒変調(DEMON)を検出することで,ターゲットのシャフト周波数やブレード数に対するロバストな洞察を提供するDEMONetを提案する。
DEMON特徴量におけるノイズとスプリアス変調スペクトルを緩和するために、時間的アライメント戦略を導入し、ノイズ耐性のDEMONスペクトルを再構成して生のDEMON特徴量を置き換えるために可変オートエンコーダ(VAE)を用いる。
論文 参考訳(メタデータ) (2024-11-05T03:04:51Z) - Phononic materials with effectively scale-separated hierarchical features using interpretable machine learning [57.91994916297646]
構造的階層的な音波材料は、複数の周波数範囲にわたるエラストダイナミック波と振動の有望なチューニング性を引き起こしている。
本稿では、各長さスケールの特徴が対象周波数範囲内の帯域ギャップをもたらす階層単位セルを求める。
提案手法は,階層型設計空間における新しい領域の探索を柔軟かつ効率的に行う手法である。
論文 参考訳(メタデータ) (2024-08-15T21:35:06Z) - On combining acoustic and modulation spectrograms in an attention
LSTM-based system for speech intelligibility level classification [0.0]
本稿では,音声の了解度予測のためのアテンション機構を備えたLSTMネットワークに基づく非侵入システムを提案する。
LSTMフレームワークにフレームごとの音響ログメルと変調スペクトログラムを組み合わせるための2つの異なる戦略について検討した。
提案手法は, 難易度が異なる変形性音声を含むUA-Speechデータベースを用いて評価した。
論文 参考訳(メタデータ) (2024-02-05T10:26:28Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。