論文の概要: Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation
- arxiv url: http://arxiv.org/abs/2506.17409v1
- Date: Fri, 20 Jun 2025 18:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.401864
- Title: Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation
- Title(参考訳): 水中音像定位と領域適応のための適応制御注意ネットワーク
- Authors: Quoc Thinh Vo, Joe Woods, Priontu Chowdhury, David K. Han,
- Abstract要約: 海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
- 参考スコア(独自算出の注目度): 8.017203108408973
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Localizing acoustic sound sources in the ocean is a challenging task due to the complex and dynamic nature of the environment. Factors such as high background noise, irregular underwater geometries, and varying acoustic properties make accurate localization difficult. To address these obstacles, we propose a multi-branch network architecture designed to accurately predict the distance between a moving acoustic source and a receiver, tested on real-world underwater signal arrays. The network leverages Convolutional Neural Networks (CNNs) for robust spatial feature extraction and integrates Conformers with self-attention mechanism to effectively capture temporal dependencies. Log-mel spectrogram and generalized cross-correlation with phase transform (GCC-PHAT) features are employed as input representations. To further enhance the model performance, we introduce an Adaptive Gain Control (AGC) layer, that adaptively adjusts the amplitude of input features, ensuring consistent energy levels across varying ranges, signal strengths, and noise conditions. We assess the model's generalization capability by training it in one domain and testing it in a different domain, using only a limited amount of data from the test domain for fine-tuning. Our proposed method outperforms state-of-the-art (SOTA) approaches in similar settings, establishing new benchmarks for underwater sound localization.
- Abstract(参考訳): 海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。
高背景雑音、不規則な水中ジオメトリー、様々な音響特性などの要因は正確な位置決めを困難にしている。
これらの障害に対処するために,実世界の水中信号アレイでテストした移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。
このネットワークは、畳み込みニューラルネットワーク(CNN)を利用して、堅牢な空間的特徴抽出を実現し、コンフォーマーと自己アテンション機構を統合して、時間的依存関係を効果的にキャプチャする。
入力表現にはLog-mel SpectrogramとGCC-PHAT機能との一般化相互相関を用いる。
モデル性能をさらに高めるため,適応利得制御(AGC)層を導入し,入力特徴の振幅を適応的に調整し,様々な範囲,信号強度,雑音条件に対して一貫したエネルギーレベルを確保する。
1つのドメインでモデルをトレーニングし、異なるドメインでテストすることで、モデルを一般化する能力を評価する。
提案手法は, 水中音像定位のための新しいベンチマークを構築し, 最先端のSOTA(State-of-the-art)手法よりも優れている。
関連論文リスト
- AMSP-UOD: When Vortex Convolution and Stochastic Perturbation Meet
Underwater Object Detection [40.532331552038485]
AMSP-UOD(Amplitude-Modulated Perturbation and Vortex Convolutional Network)を提案する。
AMSP-UODは複雑な水中環境における非理想的撮像因子が検出精度に与える影響に対処する。
提案手法は,既存の最先端手法よりも精度とノイズ免疫の点で優れる。
論文 参考訳(メタデータ) (2023-08-23T05:03:45Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Adaptive ship-radiated noise recognition with learnable fine-grained
wavelet transform [25.887932248706218]
本稿では,適応型一般化認識システム AGNet を提案する。
固定ウェーブレットパラメータをきめ細かな学習可能なパラメータに変換することにより、AGNetは異なる周波数で水中音の特性を学習する。
実験の結果、AGNetは水中音響データセットのベースライン法を全て上回っていることがわかった。
論文 参考訳(メタデータ) (2023-05-31T06:56:01Z) - PointFix: Learning to Fix Domain Bias for Robust Online Stereo
Adaptation [67.41325356479229]
本稿では,PointFixと呼ばれるメタラーニングフレームワークに補助的なポイント選択型ネットワークを導入することを提案する。
簡単に言えば、我々の補助的ネットワークは、メタグラディエントを通じて局所情報を効果的にバックプロパゲートすることで、局所的変異を集中的に修正することを学ぶ。
このネットワークはモデルに依存しないため、プラグイン・アンド・プレイ方式であらゆる種類のアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2022-07-27T07:48:29Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。