論文の概要: Advancing Robust Underwater Acoustic Target Recognition through Multi-task Learning and Multi-Gate Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2411.02787v1
- Date: Tue, 05 Nov 2024 03:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:58:10.301121
- Title: Advancing Robust Underwater Acoustic Target Recognition through Multi-task Learning and Multi-Gate Mixture-of-Experts
- Title(参考訳): マルチタスク学習とマルチゲート混合実験によるロバスト水中音響目標認識の高速化
- Authors: Yuan Xie, Jiawei Ren, Junfeng Li, Ji Xu,
- Abstract要約: 本研究では,モデルが頑健なパターンを捕捉する能力を高めるため,M3と呼ばれる認識フレームワークを提案する。
本フレームワークでは,ターゲットサイズを推定するなど,ターゲット特性に着目した補助タスクを設計する。
M3にはマルチエキスパートとマルチゲート機構が組み込まれており、異なるパラメータ空間を様々な水中信号に割り当てることができる。
- 参考スコア(独自算出の注目度): 25.187507472845944
- License:
- Abstract: Underwater acoustic target recognition has emerged as a prominent research area within the field of underwater acoustics. However, the current availability of authentic underwater acoustic signal recordings remains limited, which hinders data-driven acoustic recognition models from learning robust patterns of targets from a limited set of intricate underwater signals, thereby compromising their stability in practical applications. To overcome these limitations, this study proposes a recognition framework called M3 (Multi-task, Multi-gate, Multi-expert) to enhance the model's ability to capture robust patterns by making it aware of the inherent properties of targets. In this framework, an auxiliary task that focuses on target properties, such as estimating target size, is designed. The auxiliary task then shares parameters with the recognition task to realize multi-task learning. This paradigm allows the model to concentrate on shared information across tasks and identify robust patterns of targets in a regularized manner, thereby enhancing the model's generalization ability. Moreover, M3 incorporates multi-expert and multi-gate mechanisms, allowing for the allocation of distinct parameter spaces to various underwater signals. This enables the model to process intricate signal patterns in a fine-grained and differentiated manner. To evaluate the effectiveness of M3, extensive experiments were implemented on the ShipsEar underwater ship-radiated noise dataset. The results substantiate that M3 has the ability to outperform the most advanced single-task recognition models, thereby achieving the state-of-the-art performance.
- Abstract(参考訳): 水中音響の分野における顕著な研究領域として水中音響目標認識が出現している。
しかし、実際の水中音響信号記録の可用性は依然として限られており、これはデータ駆動音響認識モデルが複雑な水中信号の限られたセットからターゲットの堅牢なパターンを学習することを妨げるため、実用的な応用においてその安定性を損なうことになる。
これらの制約を克服するため,本研究では,M3(Multi-task,Multi-gate,Multi-expert)と呼ばれる認識フレームワークを提案する。
本フレームワークでは,ターゲットサイズを推定するなど,ターゲット特性に着目した補助タスクを設計する。
補助タスクは、マルチタスク学習を実現するために、認識タスクとパラメータを共有する。
このパラダイムにより、モデルはタスク間の共有情報に集中し、正規化された方法でターゲットの堅牢なパターンを特定することができ、それによってモデルの一般化能力を高めることができる。
さらに、M3にはマルチエキスパートとマルチゲート機構が組み込まれており、異なるパラメータ空間を様々な水中信号に割り当てることができる。
これにより、複雑な信号パターンを細粒度で区別された方法で処理することができる。
M3の有効性を評価するため、水中の船舶放射ノイズデータセットであるShipsEarで広範囲な実験を行った。
その結果、M3は最も先進的なシングルタスク認識モデルよりも優れており、最先端の性能を達成することができることがわかった。
関連論文リスト
- Adversarial multi-task underwater acoustic target recognition: towards robustness against various influential factors [25.187507472845944]
受動的ソナーに基づく水中音響目標認識は、実用的海洋用途において多くの課題に直面している。
主な課題の1つは、様々な環境条件に対する信号特性の受容性である。
水中音響目標認識の分野では、流線型因子は無視されることが多い。
論文 参考訳(メタデータ) (2024-11-05T06:42:51Z) - DEMONet: Underwater Acoustic Target Recognition based on Multi-Expert Network and Cross-Temporal Variational Autoencoder [22.271499386492533]
複雑な水中環境のため、実世界のシナリオで堅牢な水中音響認識システムを構築することは困難である。
ノイズの封筒変調(DEMON)を検出することで,ターゲットのシャフト周波数やブレード数に対するロバストな洞察を提供するDEMONetを提案する。
DEMON特徴量におけるノイズとスプリアス変調スペクトルを緩和するために、時間的アライメント戦略を導入し、ノイズ耐性のDEMONスペクトルを再構成して生のDEMON特徴量を置き換えるために可変オートエンコーダ(VAE)を用いる。
論文 参考訳(メタデータ) (2024-11-05T03:04:51Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Edge-guided Representation Learning for Underwater Object Detection [15.832646455660278]
水中物体検出は海洋経済の発展、環境保護、惑星の持続可能な開発に不可欠である。
このタスクの主な課題は、低コントラスト、小さな物体、水生生物の模倣である。
本稿では,識別的表現学習とアグリゲーションの実現を目的としたエッジ誘導型表現学習ネットワークERL-Netを提案する。
論文 参考訳(メタデータ) (2023-06-01T08:29:44Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Deep Auto-Encoders with Sequential Learning for Multimodal Dimensional
Emotion Recognition [38.350188118975616]
本稿では、2ストリームのオートエンコーダと、感情認識のための長期記憶からなる新しいディープニューラルネットワークアーキテクチャを提案する。
野生データセットRECOLAにおけるマルチモーダル感情に関する広範な実験を行った。
実験の結果,提案手法は最先端の認識性能を達成し,既存のスキームをはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2020-04-28T01:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。