Fugu-MT 論文翻訳(概要): Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification

論文の概要: Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification

arxiv url: http://arxiv.org/abs/2604.27936v1
Date: Thu, 30 Apr 2026 14:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-01 16:31:54.142084
Title: Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification
Title（参考訳）: Beyond the Baseband: Adaptive Multi-Band Encoding for Full-Spectrum Bioacoustics Classification (特集:バイオサイバネティックスとバイオサイバネティックス)
Authors: Eklavya Sarkar, Marius Miron, David Robinson, Gagan Narula, Milad Alizadeh, Ellen Gilsenan-McMahon, Emmanuel Chemla, Olivier Pietquin, Matthieu Geist,
Abstract要約: 動物呼び出しの全スペクトルをバンド特徴に分解するマルチバンド符号化フレームワークについて検討する。融合表現は2つのデータセットのベースバンドと時間拡張ベースラインを一貫して上回ることを示す。
参考スコア（独自算出の注目度）: 34.46622352196079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Animals hear and vocalize across frequency ranges that differ substantially from humans, often extending into the ultrasonic domain. Yet most computational bioacoustics systems rely on audio models pre-trained at 16 kHz, restricting their usable bandwidth to the 0-8 kHz baseband and discarding higher-frequency information present in many bioacoustic recordings. We investigate a multi-band encoding framework that decomposes the full spectrum of animal calls into band features and fuses them into a unified representation. Similarity analyses on models show that certain encoders produce decorrelated band embeddings that improve class separation after fusion. Classification experiments on three bioacoustic datasets using eight pre-trained models and five fusion strategies show that fused representations consistently outperform the baseband and time-expansion baselines on two datasets, showing the potential of multi-band methods for full-spectrum encoding of animal calls.
Abstract（参考訳）: 動物は人間と大きく異なる周波数範囲で聴き声を鳴らし、しばしば超音波領域に広がる。しかし、ほとんどの計算バイオ音響システムは、16kHzで事前訓練されたオーディオモデルに依存しており、使用可能な帯域幅を0-8kHzのベースバンドに制限し、多くのバイオ音響記録に存在する高周波情報を破棄している。動物呼び出しの全スペクトルをバンド特徴に分解し,それらを統一表現に融合するマルチバンド符号化フレームワークについて検討する。モデル上の類似性解析は、特定のエンコーダが融合後のクラス分離を改善する非相関なバンド埋め込みを生成することを示している。 8つの事前訓練されたモデルと5つの融合戦略を用いた3つのバイオ音響データセットの分類実験により、融合表現は2つのデータセットのベースバンドと時間拡張ベースラインを一貫して上回り、動物呼び出しのフルスペクトル符号化のためのマルチバンド手法の可能性を示している。

関連論文リスト

Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Multi Modal Information Fusion of Acoustic and Linguistic Data for Decoding Dairy Cow Vocalizations in Animal Welfare Assessment [0.0]
本研究では,マルチモーダルデータ融合技術を用いて乳牛の接触呼をデコードすることを目的とする。本研究では,自然言語処理モデルを用いて,牛の発声音声の音声記録を書式に転写する。発声は、苦痛や覚醒に関連する高頻度通話と、満足感や落ち着きに関連する低頻度通話に分類した。
論文参考訳（メタデータ） (2024-11-01T09:48:30Z)
On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文参考訳（メタデータ） (2024-07-23T12:00:44Z)
animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。 Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文参考訳（メタデータ） (2024-06-03T12:11:01Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文参考訳（メタデータ） (2022-11-23T18:21:09Z)
Discriminative Singular Spectrum Classifier with Applications on Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文参考訳（メタデータ） (2021-03-18T11:01:21Z)
Deep Convolutional and Recurrent Networks for Polyphonic Instrument Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文参考訳（メタデータ） (2021-02-13T13:44:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。