論文の概要: On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models
- arxiv url: http://arxiv.org/abs/2406.09282v1
- Date: Thu, 13 Jun 2024 16:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:55:18.333709
- Title: On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models
- Title(参考訳): 音声・テキスト基礎モデルにおける異種音源の影響について
- Authors: Jinchuan Tian, Yifan Peng, William Chen, Kwanghee Choi, Karen Livescu, Shinji Watanabe,
- Abstract要約: Open Whisperスタイルの音声モデル(OWSM)シリーズが導入された。
OWSMモデルは25の公開音声データセットに基づいて訓練される。
OWSM v3.2を導入し、このデータの不均一性の影響を調査し、対処することで、先行モデルを改善する。
- 参考スコア(独自算出の注目度): 57.97940182536942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Open Whisper-style Speech Model (OWSM) series was introduced to achieve full transparency in building advanced speech-to-text (S2T) foundation models. To this end, OWSM models are trained on 25 public speech datasets, which are heterogeneous in multiple ways. In this study, we advance the OWSM series by introducing OWSM v3.2, which improves on prior models by investigating and addressing the impacts of this data heterogeneity. Our study begins with a detailed analysis of each dataset, from which we derive two key strategies: data filtering with proxy task to enhance data quality, and the incorporation of punctuation and true-casing using an open large language model (LLM). With all other configurations staying the same, OWSM v3.2 improves performance over the OWSM v3.1 baseline while using 15% less training data.
- Abstract(参考訳): Open Whisperスタイルの音声モデル(OWSM)シリーズが導入された。
この目的のためにOWSMモデルは、複数の方法で異質な25の公開音声データセットでトレーニングされる。
本研究では、OWSM v3.2を導入してOWSMシリーズを前進させ、このデータの不均一性の影響を調査し、対処することによって先行モデルを改善する。
本研究は,データ品質向上のためのプロキシタスクによるデータフィルタリングと,オープンな大言語モデル(LLM)を用いた句読解と真のキャスティングという,2つの重要な戦略を導出したデータセットの詳細な分析から始まった。
他のすべての構成が同じであり、OWSM v3.2はトレーニングデータの15%削減とともにOWSM v3.1ベースラインのパフォーマンスを改善している。
関連論文リスト
- RedPajama: an Open Dataset for Training Large Language Models [80.74772646989423]
我々は、オープンソースの言語モデルを前進させるために対処しなければならない3つの中核的なデータ関連課題を特定します。
例えば、(1)データキュレーションプロセス、(2)大量の高品質データへのアクセス、(3)データセットキュレーションと分析のためのアーティファクトとメタデータの可用性などである。
LLaMAトレーニングデータセットのオープンレプリケーションであるRedPajama-V1と、生の未フィルタリングテキストデータと品質信号とメタデータからなる巨大なWeb専用データセットであるRedPajama-V2をリリースする。
論文 参考訳(メタデータ) (2024-11-19T09:35:28Z) - Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation [43.479279052047985]
我々は、学習可能なパラメータを別々に使用して、他の情報をモデリングすることの重要性を理解するための予備的研究を行う。
まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができ、次に、他の情報に依存するタスクに必要な情報を学ぶために、堅牢なデータ拡張戦略が不可欠である。
論文 参考訳(メタデータ) (2024-08-20T05:45:04Z) - OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer [67.75820725013372]
Open Whisperスタイルの音声モデル(OWSM)は、公開データとオープンソースツールキットを使用してOpenAI Whisperを再現するための最初のステップである。
OWSM v3.1 は100M から 1B のパラメータを含む一連の E-Branchformer ベースのモデルを示す。
OWSM v3.1は、ほとんどの評価ベンチマークにおいて、以前のOWSM v3よりも優れ、推論速度は25%向上した。
論文 参考訳(メタデータ) (2024-01-30T01:22:18Z) - Effects of diversity incentives on sample diversity and downstream model performance in LLM-based text augmentation [6.273933281069326]
クラウドソーシングにおいて確立された3つのテキスト多様性インセンティブ手法について検討する。
タブー語によって多様性が最も増大することが示されるが、下流モデルの性能はヒントを伴って最高である。
論文 参考訳(メタデータ) (2024-01-12T15:46:43Z) - Dynamics of Instruction Tuning: Each Ability of Large Language Models
Has Its Own Growth Pace [21.015261553612643]
10の能力にまたがる40k以上のデータセットを提示し、7bから33bのパラメータを持つ命令調整モデルについて検討する。
i) モデル全体の性能がデータとパラメータスケールに結びついているにもかかわらず、個々の能力はこれらの要因に対して異なる感性を持っている。
人為的なデータはGPT-4の合成データより効率が良く、容積の増加とともにモデル性能を常に向上させることができる。
論文 参考訳(メタデータ) (2023-10-30T15:37:10Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - Exploring the State-of-the-Art Language Modeling Methods and Data
Augmentation Techniques for Multilingual Clause-Level Morphology [3.8498574327875947]
共有タスクの3つの部分 – 反射,再帰,分析 – について検討する。
データ拡張と組み合わせたトランスフォーマーモデルと、モルフォロジー解析のための最先端の言語モデリング技術を利用する2つのアプローチを主に検討する。
提案手法は,3つのタスクのそれぞれにおいて第1位となり,mT5ベースラインよりも89%,リフレクション80%,分析12%に優れていた。
論文 参考訳(メタデータ) (2022-11-03T11:53:39Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。