論文の概要: Exploring bat song syllable representations in self-supervised audio encoders
- arxiv url: http://arxiv.org/abs/2409.12634v1
- Date: Thu, 19 Sep 2024 10:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:08:12.859577
- Title: Exploring bat song syllable representations in self-supervised audio encoders
- Title(参考訳): 自己教師型音声エンコーダにおけるコウモリの音節表現の探索
- Authors: Marianne de Heer Kloots, Mirjam Knörnschild,
- Abstract要約: いくつかの自己教師型オーディオエンコーダにおけるコウモリの音節の符号化について分析する。
人間の発話に事前学習されたモデルは、異なる音節型の最も独特な表現を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How well can deep learning models trained on human-generated sounds distinguish between another species' vocalization types? We analyze the encoding of bat song syllables in several self-supervised audio encoders, and find that models pre-trained on human speech generate the most distinctive representations of different syllable types. These findings form first steps towards the application of cross-species transfer learning in bat bioacoustics, as well as an improved understanding of out-of-distribution signal processing in audio encoder models.
- Abstract(参考訳): 人間の生み出す音で訓練された深層学習モデルは、他の種の発声タイプとどのように区別できるのか?
本研究では, コウモリの音節の符号化を複数の自己教師型音声エンコーダで解析し, 人間の発話に事前学習したモデルが, 異なる音節の表現の最も独特な表現を生成することを発見した。
これらの知見は、コウモリの生体音響学における異種間伝達学習の応用への第一歩となり、オーディオエンコーダモデルにおける分布外信号処理の理解が向上した。
関連論文リスト
- Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification [23.974783158267428]
犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-29T14:41:59Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z) - Semi-supervised Learning for Singing Synthesis Timbre [22.75251024528604]
音声データのみから新しい音声を学習できる半教師付き歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダ・デコーダモデルである。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
論文 参考訳(メタデータ) (2020-11-05T13:33:34Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。