論文の概要: Detection and classification of vocal productions in large scale audio
recordings
- arxiv url: http://arxiv.org/abs/2302.07640v2
- Date: Fri, 11 Aug 2023 17:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-14 17:35:54.169921
- Title: Detection and classification of vocal productions in large scale audio
recordings
- Title(参考訳): 大規模音声録音における音声生成の検出と分類
- Authors: Guillem Bonafos, Pierre Pudlo, Jean-Marc Freyermuth, Thierry Legou,
Jo\"el Fagot, Samuel Tron\c{c}on, Arnaud Rey
- Abstract要約: 大規模自然音声録音から発声音声を抽出する自動データ処理パイプラインを提案する。
パイプラインはディープニューラルネットワークに基づいており、両方の問題に同時に対処する。
1つは霊長類研究センターで記録されたギニアバブーンのグループで、もう1つは自宅で記録されたヒトの赤ちゃんです。
- 参考スコア(独自算出の注目度): 0.12930503923129208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an automatic data processing pipeline to extract vocal productions
from large-scale natural audio recordings and classify these vocal productions.
The pipeline is based on a deep neural network and adresses both issues
simultaneously. Though a series of computationel steps (windowing, creation of
a noise class, data augmentation, re-sampling, transfer learning, Bayesian
optimisation), it automatically trains a neural network without requiring a
large sample of labeled data and important computing resources. Our end-to-end
methodology can handle noisy recordings made under different recording
conditions. We test it on two different natural audio data sets, one from a
group of Guinea baboons recorded from a primate research center and one from
human babies recorded at home. The pipeline trains a model on 72 and 77 minutes
of labeled audio recordings, with an accuracy of 94.58% and 99.76%. It is then
used to process 443 and 174 hours of natural continuous recordings and it
creates two new databases of 38.8 and 35.2 hours, respectively. We discuss the
strengths and limitations of this approach that can be applied to any massive
audio recording.
- Abstract(参考訳): 大規模自然音声録音から発声音声を抽出し,これらの発声音声を分類する自動データ処理パイプラインを提案する。
パイプラインはディープニューラルネットワークに基づいており、両方の問題を同時に処理する。
一連の計算ステップ(ウィンドウ、ノイズクラスの作成、データ拡張、再サンプリング、転送学習、ベイジアン最適化)は、ラベル付きデータの大量のサンプルや重要なコンピューティングリソースを必要とせずに、自動的にニューラルネットワークをトレーニングする。
エンド・ツー・エンドの手法は,異なる記録条件下で発生するノイズを処理できる。
1つは霊長類研究センターで記録されたギニアバブーンのグループで、もう1つは自宅で記録された人間の赤ちゃんのものだ。
このパイプラインは72分間と77分間のラベル付き録音のモデルを訓練しており、精度は94.58%と99.76%である。
その後、443時間と174時間の連続録音を処理し、それぞれ38.8時間と35.2時間の2つの新しいデータベースを作成する。
大規模オーディオ録音に適用可能なこのアプローチの長所と短所について論じる。
関連論文リスト
- Synthetic data enables context-aware bioacoustic sound event detection [18.158806322128527]
本研究では,文脈内学習能力を向上させる基礎モデル学習手法を提案する。
我々は、8.8万時間以上の強いラベル付き音声を生成し、クエリ・バイ・サンプル・トランスフォーマー・ベース・モデルを用いて、バイオアコースティック・サウンド・イベントの検出を行う。
トレーニングされたモデルをAPIを通じて利用可能にすることで、生態学者や生態学者にバイオ音響音響イベント検出のためのトレーニング不要のツールを提供する。
論文 参考訳(メタデータ) (2025-03-01T02:03:22Z) - Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。
ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。
提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-05T10:05:44Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。