論文の概要: Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast
- arxiv url: http://arxiv.org/abs/2102.09959v1
- Date: Fri, 19 Feb 2021 14:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:17:07.490731
- Title: Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast
- Title(参考訳): ラジオ放送における音声・音楽検出改善のための音声分類・セグメンテーションのための人工合成データ
- Authors: Satvik Venkatesh, David Moffat, Alexis Kirke, G\"ozel Shakeri, Stephen
Brewster, J\"org Fachner, Helen Odell-Miller, Alex Street, Nicolas Farina,
Sube Banerjee, and Eduardo Reck Miranda
- Abstract要約: 無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting audio into homogeneous sections such as music and speech helps us
understand the content of audio. It is useful as a pre-processing step to
index, store, and modify audio recordings, radio broadcasts and TV programmes.
Deep learning models for segmentation are generally trained on copyrighted
material, which cannot be shared. Annotating these datasets is time-consuming
and expensive and therefore, it significantly slows down research progress. In
this study, we present a novel procedure that artificially synthesises data
that resembles radio signals. We replicate the workflow of a radio DJ in mixing
audio and investigate parameters like fade curves and audio ducking. We trained
a Convolutional Recurrent Neural Network (CRNN) on this synthesised data and
outperformed state-of-the-art algorithms for music-speech detection. This paper
demonstrates the data synthesis procedure as a highly effective technique to
generate large datasets to train deep neural networks for audio segmentation.
- Abstract(参考訳): 音楽や音声などの均質なセクションに音声を分割することは、オーディオの内容を理解するのに役立ちます。
オーディオ録音、ラジオ放送、テレビ番組をインデックス化し、保存し、修正するための前処理ステップとして有用である。
セグメンテーションのためのディープラーニングモデルは一般的に、共有できない著作権のある素材で訓練される。
これらのデータセットに注釈をつけるのは時間がかかり費用がかかるため、研究の進捗が大幅に遅くなる。
本研究では,無線信号に似たデータを人工的に合成する手法を提案する。
オーディオを混合する際の無線DJのワークフローを再現し、フェードカーブやオーディオダッキングなどのパラメータを調査する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
本論文では,オーディオセグメンテーションのための深層ニューラルネットワークを訓練するための大規模データセット生成手法として,データ合成手法を実証する。
関連論文リスト
- Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Audio-based Near-Duplicate Video Retrieval with Audio Similarity
Learning [19.730467023817123]
ビデオペア間の音声類似性の時間的パターンを効果的にキャプチャするオーディオ類似性学習(AuSiL)手法を提案する。
我々は三重項生成プロセスに従ってネットワークをトレーニングし、三重項損失関数を最適化する。
提案手法は3つの最先端手法と比較して非常に競合的な結果が得られる。
論文 参考訳(メタデータ) (2020-10-17T08:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。