論文の概要: Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets
Development
- arxiv url: http://arxiv.org/abs/2109.01164v1
- Date: Wed, 1 Sep 2021 17:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:48:22.137962
- Title: Scalable Data Annotation Pipeline for High-Quality Large Speech Datasets
Development
- Title(参考訳): 高品質大規模音声データセット開発のためのスケーラブルなデータアノテーションパイプライン
- Authors: Mingkuan Liu, Chi Zhang, Hua Xing, Chao Feng, Monchu Chen, Judith
Bishop, Grace Ngapo
- Abstract要約: 本稿では,高品質で大規模な音声データセットを生成するためのHuman-in-the-loop(HITL)データアノテーションパイプラインを提案する。
パイプラインは人間と機械のアドバンテージを、より迅速で正確に組み合わせ、費用対効果の高いアノテートデータセットと、マシン事前ラベルと完全な手作業による監査を組み合わせる。
- 参考スコア(独自算出の注目度): 13.895206378873725
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a human-in-the-loop (HITL) data annotation pipeline to
generate high-quality, large-scale speech datasets. The pipeline combines human
and machine advantages to more quickly, accurately, and cost-effectively
annotate datasets with machine pre-labeling and fully manual auditing. Quality
control mechanisms such as blind testing, behavior monitoring, and data
validation have been adopted in the annotation pipeline to mitigate potential
bias introduced by machine-generated labels. Our A/B testing and pilot results
demonstrated the HITL pipeline can improve annotation speed and capacity by at
least 80% and quality is comparable to or higher than manual double pass
annotation. We are leveraging this scalable pipeline to create and continuously
grow ultra-high volume off-the-shelf (UHV-OTS) speech corpora for multiple
languages, with the capability to expand to 10,000+ hours per language
annually. Customized datasets can be produced from the UHV-OTS corpora using
dynamic packaging. UHV-OTS is a long-term Appen project to support commercial
and academic research data needs in speech processing. Appen will donate a
number of free speech datasets from the UHV-OTS each year to support academic
and open source community research under the CC-BY-SA license. We are also
releasing the code of the data pre-processing and pre-tagging pipeline under
the Apache 2.0 license to allow reproduction of the results reported in the
paper.
- Abstract(参考訳): 本稿では,高品質で大規模な音声データセットを生成するためのHuman-in-the-loop(HITL)データアノテーションパイプラインを提案する。
パイプラインは人間と機械のアドバンテージを、より迅速で正確に組み合わせ、費用対効果の高いアノテートデータセットと、マシン事前ラベルと完全な手作業による監査を組み合わせる。
ブラインドテスト、振る舞い監視、データ検証といった品質管理メカニズムがアノテーションパイプラインで採用され、マシン生成ラベルによって引き起こされる潜在的なバイアスを軽減する。
A/Bテストとパイロット試験の結果,HITLパイプラインはアノテーションの速度とキャパシティを少なくとも80%向上し,品質は手動のダブルパスアノテーションと同等かそれ以上であることがわかった。
私たちはこのスケーラブルなパイプラインを利用して、複数の言語で超高音量オフザシェルフ(uhv-ots)音声コーパスを作成し、継続的に成長させています。
カスタムデータセットは動的パッケージングを使用してUHV-OTSコーパスから作成することができる。
UHV-OTSは、音声処理に必要な商用および学術研究データをサポートする長期的なAppenプロジェクトである。
appenは毎年uhv-otsから無料の音声データセットを寄付し、cc-by-saライセンスの下で学術的およびオープンソースコミュニティの研究をサポートする。
また、論文で報告された結果の再現を可能にするために、Apache 2.0ライセンスの下でデータ前処理とタグ付けパイプラインのコードもリリースしています。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline [34.518474035662905]
LLM(Large Language Models)の一般的な能力は、いくつかの機関によって商業秘密として扱われる広範な事前訓練データセットに大きく依存している。
我々は、その有効性と可能性を検証するために、普遍的に適用可能なデータ処理パイプラインの詳細をオープンソース化する。
BaichuanSEEDはトレーニングを通じて一貫性と予測可能性を示し、包括的なベンチマークで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T14:08:23Z) - Utilizing BERT for Information Retrieval: Survey, Applications,
Resources, and Challenges [4.588192657854766]
本調査は、情報検索(IR)にBERTのような事前訓練されたトランスフォーマーエンコーダを適用するアプローチに焦点を当てる。
i) 長文処理, (ii) 意味情報の統合, (iii) 有効性と効率のバランス, (iv) 用語の重み付け予測, (v) クエリ拡張, (vi) 文書拡張の6つの高レベルカテゴリに分類した。
特定のタスクに対して、細かな調整されたBERTエンコーダは依然としてパフォーマンスが良く、デプロイメントコストも低いことが分かりました。
論文 参考訳(メタデータ) (2024-02-18T23:22:40Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Understand Data Preprocessing for Effective End-to-End Training of Deep
Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。
我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文 参考訳(メタデータ) (2023-04-18T11:57:38Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。