論文の概要: Multi-Representation Attention Framework for Underwater Bioacoustic Denoising and Recognition
- arxiv url: http://arxiv.org/abs/2510.26838v1
- Date: Wed, 29 Oct 2025 22:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.861435
- Title: Multi-Representation Attention Framework for Underwater Bioacoustic Denoising and Recognition
- Title(参考訳): 水中バイオ音響復調・認識のための多表現アテンションフレームワーク
- Authors: Amine Razig, Youssef Soulaymani, Loubna Benabbou, Pierre Cauchy,
- Abstract要約: 生体関連エネルギーのソフトマスクを生成するために、まずスペクトログラムをセグメント化する多段階の注意誘導フレームワークを導入する。
画像とマスクの埋め込みは、中間レベルの融合によって統合され、モデルが正常なスペクトル領域に集中できるようにする。
カナダのセイグネイ・セントローレンス海洋公園研究ステーションの実際の記録を用いて、セグメンテーション駆動の注意と中級核融合が信号の識別を改善することを実証した。
- 参考スコア(独自算出の注目度): 0.924965746838578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated monitoring of marine mammals in the St. Lawrence Estuary faces extreme challenges: calls span low-frequency moans to ultrasonic clicks, often overlap, and are embedded in variable anthropogenic and environmental noise. We introduce a multi-step, attention-guided framework that first segments spectrograms to generate soft masks of biologically relevant energy and then fuses these masks with the raw inputs for multi-band, denoised classification. Image and mask embeddings are integrated via mid-level fusion, enabling the model to focus on salient spectrogram regions while preserving global context. Using real-world recordings from the Saguenay St. Lawrence Marine Park Research Station in Canada, we demonstrate that segmentation-driven attention and mid-level fusion improve signal discrimination, reduce false positive detections, and produce reliable representations for operational marine mammal monitoring across diverse environmental conditions and signal-to-noise ratios. Beyond in-distribution evaluation, we further assess the generalization of Mask-Guided Classification (MGC) under distributional shifts by testing on spectrograms generated with alternative acoustic transformations. While high-capacity baseline models lose accuracy in this Out-of-distribution (OOD) setting, MGC maintains stable performance, with even simple fusion mechanisms (gated, concat) achieving comparable results across distributions. This robustness highlights the capacity of MGC to learn transferable representations rather than overfitting to a specific transformation, thereby reinforcing its suitability for large-scale, real-world biodiversity monitoring. We show that in all experimental settings, the MGC framework consistently outperforms baseline architectures, yielding substantial gains in accuracy on both in-distribution and OOD data.
- Abstract(参考訳): セントローレンス河口の海洋哺乳動物の自動監視は、低周波のモアンから超音波のクリックまで、しばしば重複し、様々な人為的・環境的な騒音に埋め込まれる、極端な課題に直面している。
生体関連エネルギーのソフトマスクを生成するために、まずスペクトログラムをセグメント化し、その後、これらのマスクをマルチバンドで識別された分類のための原入力と融合する多段階の注意誘導フレームワークを導入する。
画像とマスクの埋め込みは、中間レベルの融合によって統合され、グローバルなコンテキストを維持しながら、適切なスペクトル領域に集中することができる。
カナダのセイグネイ・セントローレンス海洋公園研究ステーションの実際の記録を用いて、セグメンテーション駆動の注意と中級核融合が信号の識別を改善し、偽陽性の検出を減らし、様々な環境条件と信号と雑音の比率をまたいだ海洋哺乳動物監視のための信頼性の高い表現を生成することを実証した。
分散性評価の他に、代替音響変換を用いた分光図の検証により、分布シフト下でのマスクガイド分類(MGC)の一般化を更に評価する。
高容量のベースラインモデルは、このout-of-distriion (OOD)設定では精度が低下するが、MGCは安定的な性能を維持し、単純な融合機構(gate, concat)さえも、分布全体で同等の結果を達成する。
この堅牢性は、特定の変換に過度に適合するのではなく、伝達可能な表現を学習するMCCの能力を強調し、これにより、大規模で現実世界の生物多様性モニタリングに適合性を高める。
すべての実験環境において,MGCフレームワークはベースラインアーキテクチャを一貫して上回り,分布内データとOODデータの両方で精度が大幅に向上することを示す。
関連論文リスト
- WaveMAE: Wavelet decomposition Masked Auto-Encoder for Remote Sensing [5.65492058135409]
WaveMAEはマルチスペクトル衛星画像に適したマスク付き自動符号化フレームワークである。
評価の公平性を確保するため、全ての手法が同じデータセット上で事前訓練される(fMoW-S2)。
WaveMAEは従来の最先端アプローチよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-10-26T14:45:30Z) - Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring [2.558238597112103]
GetNetUPAMは、現実的な可変性の下で安定性をモデル化するためのネストされたクロスバリデーションフレームワークである。
データは異なるサイト年区分に分割され、記録を保存し、各バリデーションフォールドがユニークな環境サブセットを反映することを保証する。
ARPA-Nは、DenseNetベースラインに対する平均精度が14.4%向上し、すべてのメトリクスで対数2スケールのオーダー・オブ・マグニチュードが減少する。
論文 参考訳(メタデータ) (2025-09-04T22:03:05Z) - Combating Noisy Labels via Dynamic Connection Masking [31.78040205653134]
MLP(Multi-Layer Perceptron Networks)とKAN(Kolmogorov-Arnold Networks)のための動的接続マスキング(DCM)機構を提案する。
我々のアプローチは、より堅牢なディープネットワークを構築するために、様々なノイズロストトレーニング手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-13T10:51:46Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - SARD: Segmentation-Aware Anomaly Synthesis via Region-Constrained Diffusion with Discriminative Mask Guidance [4.65786322515141]
SARD (Segmentation-Aware anomaly synthesis via Region-constrained Diffusion with discriminative mask Guidance) は, 異常生成に特化して設計された新しい拡散型フレームワークである。
SARDは、セグメンテーションの精度と視覚的品質において既存の手法を超越し、ピクセルレベルの異常合成のための新しい最先端技術を確立している。
論文 参考訳(メタデータ) (2025-08-05T06:43:01Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。