論文の概要: Soundata: A Python library for reproducible use of audio datasets
- arxiv url: http://arxiv.org/abs/2109.12690v1
- Date: Sun, 26 Sep 2021 19:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:04:22.458960
- Title: Soundata: A Python library for reproducible use of audio datasets
- Title(参考訳): Soundata: 再現可能なオーディオデータセット使用のためのPythonライブラリ
- Authors: Magdalena Fuentes, Justin Salamon, Pablo Zinemanas, Mart\'in Rocamora,
Gen\'is Paja, Ir\'an R. Rom\'an, Rachel Bittner, Marius Miron, Xavier Serra
and Juan Pablo Bello
- Abstract要約: Soundataは、標準化された方法でオーディオデータセットを読み込み、処理するためのPythonライブラリである。
これにより、すべてのプロジェクトでカスタムローダを書く必要がなくなり、標準バージョンに対するデータ検証ツールを提供することで改善される。
- 参考スコア(独自算出の注目度): 27.192473938962145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soundata is a Python library for loading and working with audio datasets in a
standardized way, removing the need for writing custom loaders in every
project, and improving reproducibility by providing tools to validate data
against a canonical version. It speeds up research pipelines by allowing users
to quickly download a dataset, load it into memory in a standardized and
reproducible way, validate that the dataset is complete and correct, and more.
Soundata is based and inspired on mirdata and design to complement mirdata by
working with environmental sound, bioacoustic and speech datasets, among
others. Soundata was created to be easy to use, easy to contribute to, and to
increase reproducibility and standardize usage of sound datasets in a flexible
way.
- Abstract(参考訳): Soundataは、標準化された方法でオーディオデータセットを読み込み、処理するためのPythonライブラリで、各プロジェクトでカスタムローダを記述する必要性をなくし、標準バージョンに対するデータ検証ツールを提供することで再現性を向上させる。
ユーザーはデータセットを素早くダウンロードし、標準化された再現可能な方法でメモリにロードし、データセットが完全で正しいことを検証することで、研究パイプラインを高速化する。
Soundataは、環境音、バイオ音響、音声データセットなどを扱うことで、ミルデータとミルデータを補完する設計に基づいている。
soundataは、使いやすく、コントリビュートしやすく、再現性を高め、柔軟な方法でサウンドデータセットの使用を標準化するために作られた。
関連論文リスト
- Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Data leakage in cross-modal retrieval training: A case study [16.18916188804986]
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
SoundDescには、トレーニングデータを評価データに漏洩させる複数の重複が含まれていることが判明した。
オンラインで利用可能なデータセットに対して、新たなトレーニング、検証、テストの分割を提案します。
論文 参考訳(メタデータ) (2023-02-23T09:51:03Z) - Faked Speech Detection with Zero Knowledge [2.5515299924109858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
提案モデルは,大規模な音声データセットから抽出した重要な特徴の集合に基づいて訓練された。
比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - ARCA23K: An audio dataset for investigating open-set label noise [48.683197172795865]
本稿では、23,000以上のラベル付きFreesoundクリップからなる自動検索およびキュレートされたオーディオデータセットであるARCA23Kを紹介する。
本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
論文 参考訳(メタデータ) (2021-09-19T21:10:25Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。