論文の概要: Vox Populi, Vox DIY: Benchmark Dataset for Crowdsourced Audio
Transcription
- arxiv url: http://arxiv.org/abs/2107.01091v1
- Date: Fri, 2 Jul 2021 14:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 17:41:08.951602
- Title: Vox Populi, Vox DIY: Benchmark Dataset for Crowdsourced Audio
Transcription
- Title(参考訳): vox populi, vox diy:クラウドソースオーディオ転写のためのベンチマークデータセット
- Authors: Nikita Pavlichenko, Ivan Stelmakh, Dmitry Ustalov
- Abstract要約: CrowdSpeechは、クラウドソースによるオーディオの大規模なデータセットとして初めて公開されています。
我々は,任意の新規ドメインでクラウドソーシングされた音声のデータセットを構築するための,原理化されたパイプラインを開発した。
我々は、ロシア語のCrowdSpeechに対抗して、VoxDIYを構築することで、アンダーリソース言語に適用可能であることを示す。
- 参考スコア(独自算出の注目度): 4.166009446093875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-specific data is the crux of the successful transfer of machine
learning systems from benchmarks to real life. Crowdsourcing has become one of
the standard tools for cheap and time-efficient data collection for simple
problems such as image classification: thanks in large part to advances in
research on aggregation methods. However, the applicability of crowdsourcing to
more complex tasks (e.g., speech recognition) remains limited due to the lack
of principled aggregation methods for these modalities. The main obstacle
towards designing advanced aggregation methods is the absence of training data,
and in this work, we focus on bridging this gap in speech recognition. For
this, we collect and release CrowdSpeech -- the first publicly available
large-scale dataset of crowdsourced audio transcriptions. Evaluation of
existing aggregation methods on our data shows room for improvement, suggesting
that our work may entail the design of better algorithms. At a higher level, we
also contribute to the more general challenge of collecting high-quality
datasets using crowdsourcing: we develop a principled pipeline for constructing
datasets of crowdsourced audio transcriptions in any novel domain. We show its
applicability on an under-resourced language by constructing VoxDIY -- a
counterpart of CrowdSpeech for the Russian language. We also release the code
that allows a full replication of our data collection pipeline and share
various insights on best practices of data collection via crowdsourcing.
- Abstract(参考訳): ドメイン固有のデータは、ベンチマークから実生活への機械学習システムの移行の成功の要点である。
クラウドソーシングは、画像分類のような単純な問題に対して、安価で時間効率の良いデータ収集のための標準的なツールの1つになっている。
しかしながら、より複雑なタスク(例えば音声認識)へのクラウドソーシングの適用性は、これらのモダリティに対する原則的な集約方法の欠如によって制限されている。
高度な集約手法を設計する主な障害は、トレーニングデータの欠如であり、本研究では、音声認識におけるこのギャップを埋めることに焦点を当てる。
CrowdSpeechは、クラウドソーシングされたオーディオの大規模なデータセットとして初めて公開されています。
既存の集計手法の評価は改善の余地があり,より優れたアルゴリズムの設計を伴っている可能性が示唆された。
より高度なレベルでは、クラウドソーシングを使用して高品質なデータセットを収集するという、より一般的な課題にも貢献します。
ロシア語のcrowdspeechに相当するvoxdiyを構築することで、リソース不足の言語にその適用性を示す。
データ収集パイプラインの完全なレプリケーションを可能にするコードもリリースし、クラウドソーシングによるデータ収集のベストプラクティスに関するさまざまな洞察を共有しています。
関連論文リスト
- Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - GPTs Are Multilingual Annotators for Sequence Generation Tasks [11.59128394819439]
本研究では,大規模言語モデルを用いた自律アノテーション手法を提案する。
提案手法はコスト効率だけでなく,低リソース言語アノテーションにも適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T09:44:02Z) - Query of CC: Unearthing Large Scale Domain-Specific Knowledge from
Public Corpora [104.16648246740543]
大規模言語モデルに基づく効率的なデータ収集手法を提案する。
この方法は、大きな言語モデルを通してシード情報をブートストラップし、公開コーパスから関連データを検索する。
特定のドメインに関する知識関連のデータを収集するだけでなく、潜在的な推論手順でデータを抽出する。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。