論文の概要: WhAM: Towards A Translative Model of Sperm Whale Vocalization
- arxiv url: http://arxiv.org/abs/2512.02206v1
- Date: Mon, 01 Dec 2025 20:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.610415
- Title: WhAM: Towards A Translative Model of Sperm Whale Vocalization
- Title(参考訳): WhAM: Sperm Whale Vocalizationの翻訳モデルを目指して
- Authors: Orr Paradise, Pranav Muralikrishnan, Liangyuan Chen, Hugo Flores García, Bryan Pardo, Roee Diamant, David F. Gruber, Shane Gero, Shafi Goldwasser,
- Abstract要約: 音声プロンプトから合成精子クジラコーダを生成できる最初のトランスフォーマーモデルであるWhAMについて述べる。
WhAMは、音楽オーディオで事前訓練されたマスク付き音響トークンモデルであるVampNetを微調整することによって構築される。
Fréchet Audio Distance を用いて WhAM 合成コーダの評価を行い, 海洋生物学者を対象とした知覚学的研究を行った。
- 参考スコア(独自算出の注目度): 13.010496613738807
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sperm whales communicate in short sequences of clicks known as codas. We present WhAM (Whale Acoustics Model), the first transformer-based model capable of generating synthetic sperm whale codas from any audio prompt. WhAM is built by finetuning VampNet, a masked acoustic token model pretrained on musical audio, using 10k coda recordings collected over the past two decades. Through iterative masked token prediction, WhAM generates high-fidelity synthetic codas that preserve key acoustic features of the source recordings. We evaluate WhAM's synthetic codas using Fréchet Audio Distance and through perceptual studies with expert marine biologists. On downstream classification tasks including rhythm, social unit, and vowel classification, WhAM's learned representations achieve strong performance, despite being trained for generation rather than classification. Our code is available at https://github.com/Project-CETI/wham
- Abstract(参考訳): クジラはコダと呼ばれる短いクリックで通信する。
WhAM(Whale Acoustics Model)は,任意の音声プロンプトから合成精子コダを生成するトランスフォーマーモデルである。
WhAMは、過去20年間に収集された10kコーダの録音を使用して、オーディオに予めトレーニングされたマスク付き音響トークンモデルであるVampNetを微調整することによって構築されている。
繰り返しマスクされたトークン予測により、WhAMはソース記録の重要な音響特性を保持する高忠実な合成コーダを生成する。
Fréchet Audio Distance を用いて WhAM 合成コーダの評価を行い, 海洋生物学者を対象とした知覚学的研究を行った。
リズム,社会単位,母音の分類を含む下流の分類タスクにおいて,WhAMの学習された表現は,分類ではなく世代のために訓練されているにもかかわらず,強い性能を発揮する。
私たちのコードはhttps://github.com/Project-CETI/whamで利用可能です。
関連論文リスト
- Exploring bat song syllable representations in self-supervised audio encoders [0.0]
いくつかの自己教師型オーディオエンコーダにおけるコウモリの音節の符号化について分析する。
人間の発話に事前学習されたモデルは、異なる音節型の最も独特な表現を生成する。
論文 参考訳(メタデータ) (2024-09-19T10:09:31Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。