論文の概要: Soundata: A Python library for reproducible use of audio datasets
- arxiv url: http://arxiv.org/abs/2109.12690v1
- Date: Sun, 26 Sep 2021 19:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:04:22.458960
- Title: Soundata: A Python library for reproducible use of audio datasets
- Title(参考訳): Soundata: 再現可能なオーディオデータセット使用のためのPythonライブラリ
- Authors: Magdalena Fuentes, Justin Salamon, Pablo Zinemanas, Mart\'in Rocamora,
Gen\'is Paja, Ir\'an R. Rom\'an, Rachel Bittner, Marius Miron, Xavier Serra
and Juan Pablo Bello
- Abstract要約: Soundataは、標準化された方法でオーディオデータセットを読み込み、処理するためのPythonライブラリである。
これにより、すべてのプロジェクトでカスタムローダを書く必要がなくなり、標準バージョンに対するデータ検証ツールを提供することで改善される。
- 参考スコア(独自算出の注目度): 27.192473938962145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soundata is a Python library for loading and working with audio datasets in a
standardized way, removing the need for writing custom loaders in every
project, and improving reproducibility by providing tools to validate data
against a canonical version. It speeds up research pipelines by allowing users
to quickly download a dataset, load it into memory in a standardized and
reproducible way, validate that the dataset is complete and correct, and more.
Soundata is based and inspired on mirdata and design to complement mirdata by
working with environmental sound, bioacoustic and speech datasets, among
others. Soundata was created to be easy to use, easy to contribute to, and to
increase reproducibility and standardize usage of sound datasets in a flexible
way.
- Abstract(参考訳): Soundataは、標準化された方法でオーディオデータセットを読み込み、処理するためのPythonライブラリで、各プロジェクトでカスタムローダを記述する必要性をなくし、標準バージョンに対するデータ検証ツールを提供することで再現性を向上させる。
ユーザーはデータセットを素早くダウンロードし、標準化された再現可能な方法でメモリにロードし、データセットが完全で正しいことを検証することで、研究パイプラインを高速化する。
Soundataは、環境音、バイオ音響、音声データセットなどを扱うことで、ミルデータとミルデータを補完する設計に基づいている。
soundataは、使いやすく、コントリビュートしやすく、再現性を高め、柔軟な方法でサウンドデータセットの使用を標準化するために作られた。
関連論文リスト
- Language-based Audio Moment Retrieval [14.227865973426843]
音声モーメント検索(AMR)と呼ばれる新しいタスクを提案し設計する。
従来の言語ベースの音声検索タスクとは異なり、AMRはテキストクエリに基づいて、未編集の長い音声の関連モーメントを予測することを目的としている。
我々は、モーメントアノテーションを付加した大規模なシミュレーションオーディオ録音からなる専用のデータセット、Clatho-Momentを構築した。
次に、AMRタスクの基本的なフレームワークとして、Audio Moment DETR (AM-DETR) と呼ばれるDETRベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-09-24T02:24:48Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Data leakage in cross-modal retrieval training: A case study [16.18916188804986]
提案したSoundDescベンチマークデータセットは,BBC Sound EffectsのWebページから自動的にソースされる。
SoundDescには、トレーニングデータを評価データに漏洩させる複数の重複が含まれていることが判明した。
オンラインで利用可能なデータセットに対して、新たなトレーニング、検証、テストの分割を提案します。
論文 参考訳(メタデータ) (2023-02-23T09:51:03Z) - ARCA23K: An audio dataset for investigating open-set label noise [48.683197172795865]
本稿では、23,000以上のラベル付きFreesoundクリップからなる自動検索およびキュレートされたオーディオデータセットであるARCA23Kを紹介する。
本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
論文 参考訳(メタデータ) (2021-09-19T21:10:25Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。