論文の概要: Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection
- arxiv url: http://arxiv.org/abs/2412.11978v1
- Date: Mon, 16 Dec 2024 16:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:55:34.764468
- Title: Speech Foundation Models and Crowdsourcing for Efficient, High-Quality Data Collection
- Title(参考訳): 効率的な高品質データ収集のための音声基礎モデルとクラウドソーシング
- Authors: Beomseok Lee, Marco Gaido, Ioan Calapodescu, Laurent Besacier, Matteo Negri,
- Abstract要約: 本稿では,データ取得におけるコスト/品質トレードオフを初めて検討し,音声基礎モデル(SFM)を用いた検証プロセスの自動化について検討する。
フランス、ドイツ、韓国のデータを用いた実験では、SFMベースの検証は人間の検証への依存を減らす可能性があり、最終的なデータ品質を劣化させることなく40.0%以上のコスト削減が期待できることが示された。
- 参考スコア(独自算出の注目度): 36.66049960988789
- License:
- Abstract: While crowdsourcing is an established solution for facilitating and scaling the collection of speech data, the involvement of non-experts necessitates protocols to ensure final data quality. To reduce the costs of these essential controls, this paper investigates the use of Speech Foundation Models (SFMs) to automate the validation process, examining for the first time the cost/quality trade-off in data acquisition. Experiments conducted on French, German, and Korean data demonstrate that SFM-based validation has the potential to reduce reliance on human validation, resulting in an estimated cost saving of over 40.0% without degrading final data quality. These findings open new opportunities for more efficient, cost-effective, and scalable speech data acquisition.
- Abstract(参考訳): クラウドソーシングは音声データの収集とスケーリングを容易にするための確立されたソリューションであるが、非専門家の関与は最終的なデータ品質を保証するためのプロトコルを必要とする。
本稿では,これらの基本的制御のコストを削減するため,データ取得におけるコスト/品質トレードオフを初めて検討し,検証プロセスの自動化に音声基礎モデル(SFM)を用いることを検討した。
フランス、ドイツ、韓国のデータを用いた実験では、SFMベースの検証は人間の検証への依存を減らす可能性があり、最終的なデータ品質を劣化させることなく40.0%以上のコスト削減が期待できることが示された。
これらの発見は、より効率的で費用効率が高く、スケーラブルな音声データ取得のための新たな機会を開く。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
多くの強力なデータ選択手法は、ほとんど計算に最適ではないことが分かりました。
計算最適トレーニングでは、パープレキシティと勾配データ選択は、それぞれ5xと10xのトレーニング-選択モデルサイズ比を必要とする。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback [2.07180164747172]
本稿では,RLHF(Reinforcement Learning from Human Feedback)の費用対効果について述べる。
RLHFは大規模言語モデル(LLM)の出力よりも人間の好みのデータセットを活用する
本稿では,RLHFのコスト効率を高める上で,オークション機構の導入が重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-09-27T03:15:07Z) - Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model [3.647905567437244]
アクティブラーニング(AL)は、高情報データを選択的に収集することでモデル性能を向上させることを目的としている。
実際のシナリオでは、ラベルなしデータは配布外サンプル(OOD)を含んでいて、無駄なアノテーションコストにつながる可能性がある。
OODサンプルを必要とせずにコスト損失を最小限に抑える新しい選択戦略であるCLIPNALを提案する。
論文 参考訳(メタデータ) (2024-08-09T07:54:57Z) - Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare [0.0]
本稿では,事前,リアルタイムおよびデータ収集段階における品質管理対策を充実したクラウドソーシングフレームワークを提案する。
本研究は,大規模言語モデルによる自閉症関連症状の予測によるデータ品質向上効果について検討した。
論文 参考訳(メタデータ) (2024-05-16T08:29:00Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - On the Economics of Multilingual Few-shot Learning: Modeling the
Cost-Performance Trade-offs of Machine Translated and Manual Data [12.638781962950805]
本稿では,機械翻訳データと手作業で作成したラベル付きデータのパフォーマンスとコストのトレードオフを評価するためのフレームワークを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
論文 参考訳(メタデータ) (2022-05-12T20:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。