論文の概要: Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support
- arxiv url: http://arxiv.org/abs/2407.07275v1
- Date: Tue, 9 Jul 2024 23:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:21:11.951004
- Title: Remastering Divide and Remaster: A Cinematic Audio Source Separation Dataset with Multilingual Support
- Title(参考訳): Remastering Divide and Remaster: マルチ言語サポートを備えたシネマティックオーディオソース分離データセット
- Authors: Karn N. Watcharasupat, Chih-Wei Wu, Iroro Orife,
- Abstract要約: 我々はDivide and Remaster(DnR)データセットのバージョン3を開発する。
本研究は,非対話幹の音声内容,大音量分布,習得過程,言語多様性に関する課題に対処する。
特に、DnR v3の対話幹には、複数の家系の30以上の言語からの音声コンテンツが含まれている。
- 参考スコア(独自算出の注目度): 5.926447149127937
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Cinematic audio source separation (CASS) is a relatively new subtask of audio source separation, concerned with the separation of a mixture into the dialogue, music, and effects stems. To date, only one publicly available dataset exists for CASS, that is, the Divide and Remaster (DnR) dataset, which is currently at version 2. While DnR v2 has been an incredibly useful resource for CASS, several areas of improvement have been identified, particularly through its use in the 2023 Sound Demixing Challenge. In this work, we develop version 3 of the DnR dataset, addressing issues relating to vocal content in non-dialogue stems, loudness distributions, mastering process, and linguistic diversity. In particular, the dialogue stem of DnR v3 includes speech content from more than 30 languages from multiple families including but not limited to the Germanic, Romance, Indo-Aryan, Dravidian, Malayo-Polynesian, and Bantu families. Benchmark results using the Bandit model indicated that training on multilingual data yields significant generalizability to the model even in languages with low data availability. Even in languages with high data availability, the multilingual model often performs on par or better than dedicated models trained on monolingual CASS datasets.
- Abstract(参考訳): シネマティックオーディオソース分離(CASS)は、音声ソース分離の比較的新しいサブタスクであり、混合物を対話、音楽、エフェクトに分離することを目的としている。
現在、CASSで利用可能なデータセットは、Divide and Remaster(DnR)データセットのみである。
DnR v2はCASSにとって非常に有用なリソースであるが、特に2023年のサウンド・デミックス・チャレンジ(Sound Demixing Challenge)においていくつかの改善点が特定されている。
本研究では,DnRデータセットのバージョン3を開発し,非対話幹の音声内容,大音量分布,習得過程,言語多様性に関する問題に対処する。
特に、DnR v3の対話ステムには、ゲルマン語、ロマンス語、インド・アーリア語、ドラヴィディア語、マラヨ・ポリネシア語、バントゥー語など、複数の家系の30以上の言語からの音声コンテンツが含まれている。
Banditモデルを用いたベンチマーク結果から,データ可用性の低い言語であっても,多言語データのトレーニングがモデルに多大な一般化性をもたらすことが示唆された。
高いデータ可用性を持つ言語でも、多言語モデルはモノリンガルCASSデータセットでトレーニングされた専用モデルよりも、同等かそれ以上で実行されることが多い。
関連論文リスト
- AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and
Dataset [53.46019570679092]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource
Languages [0.6193838300896449]
我々は、低リソースの北インドの言語で聖書の音声録音をオープンライセンスでフォーマットしたデータセットをリリースする。
我々は、複数の実験分割を設定し、このデータを用いて将来の研究のベースラインとなる2つの競合ASRモデルを訓練し、分析する。
論文 参考訳(メタデータ) (2022-06-01T18:22:01Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。