論文の概要: Detecting human and non-human vocal productions in large scale audio
recordings
- arxiv url: http://arxiv.org/abs/2302.07640v1
- Date: Tue, 14 Feb 2023 14:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:06:41.329377
- Title: Detecting human and non-human vocal productions in large scale audio
recordings
- Title(参考訳): 大規模録音における人声・非人声生成の検出
- Authors: Guillem Bonafos, Pierre Pudlo, Jean-Marc Freyermuth, Thierry Legou,
Jo\"el Fagot, Samuel Tron\c{c}on, Arnaud Rey
- Abstract要約: 大規模自然音声録音から発声音声を抽出する自動データ処理パイプラインを提案する。
霊長類研究センターから記録されたギニアバブーンの1種と、自宅で記録されたヒトの赤ちゃんの1種である。
- 参考スコア(独自算出の注目度): 0.12930503923129208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an automatic data processing pipeline to extract vocal productions
from large-scale natural audio recordings. Through a series of computational
steps (windowing, creation of a noise class, data augmentation, re-sampling,
transfer learning, Bayesian optimisation), it automatically trains a neural
network for detecting various types of natural vocal productions in a noisy
data stream without requiring a large sample of labeled data. We test it on two
different data sets, one from a group of Guinea baboons recorded from a primate
research center and one from human babies recorded at home. The pipeline trains
a model on 72 and 77 minutes of labeled audio recordings, with an accuracy of
94.58% and 99.76%. It is then used to process 443 and 174 hours of natural
continuous recordings and it creates two new databases of 38.8 and 35.2 hours,
respectively. We discuss the strengths and limitations of this approach that
can be applied to any massive audio recording.
- Abstract(参考訳): 大規模自然音声録音から発声音声を抽出する自動データ処理パイプラインを提案する。
一連の計算ステップ(ウィンドウ、ノイズクラスの作成、データ拡張、再サンプリング、転送学習、ベイズ最適化)を通じて、ラベル付きデータの大規模なサンプルを必要とせずに、ノイズデータストリーム内のさまざまな自然声生成を検出するニューラルネットワークを自動トレーニングする。
1つは霊長類研究センターで記録されたモルモットバブーンのグループ、もう1つは自宅で記録されたヒトの赤ちゃんです。
このパイプラインは72分間と77分間のラベル付き録音のモデルを訓練しており、精度は94.58%と99.76%である。
その後、443時間と174時間の連続録音を処理し、それぞれ38.8時間と35.2時間の2つの新しいデータベースを作成する。
大規模オーディオ録音に適用可能なこのアプローチの長所と短所について論じる。
関連論文リスト
- Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio Interval Retrieval using Convolutional Neural Networks [0.0]
本稿では,自然言語クエリに基づく音声イベント検索の可能性を検討することを目的とする。
特に、オーディオサンプルを自動的に分類するために、YamNet、AlexNet、ResNet-50の事前訓練モデルに焦点を当てます。
結果,ベンチマークモデルの性能は同等であり,YamNetは他の2モデルよりも若干優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:32:18Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。
ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。
提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-05T10:05:44Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。