論文の概要: Data-Centric Lessons To Improve Speech-Language Pretraining
- arxiv url: http://arxiv.org/abs/2510.20860v1
- Date: Wed, 22 Oct 2025 17:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.27179
- Title: Data-Centric Lessons To Improve Speech-Language Pretraining
- Title(参考訳): 音声言語事前学習を改善するデータ中心授業
- Authors: Vishaal Udandarao, Zhiyun Lu, Xuankai Chang, Yongqiang Wang, Violet Z. Yao, Albin Madapally Jose, Fartash Faghri, Josh Gardner, Chung-Cheng Chiu,
- Abstract要約: Spoken Question-Answering (SQA)は、有用な対話型人工知能システムのためのコア機能である。
我々は、言語事前学習データの基本となる3つの研究課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 28.052057327597936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Question-Answering (SQA) is a core capability for useful and interactive artificial intelligence systems. Recently, several speech-language models (SpeechLMs) have been released with a specific focus on improving their SQA performance. However, a lack of controlled ablations of pretraining data processing and curation makes it challenging to understand what factors account for performance, despite substantial gains from similar studies in other data modalities. In this work, we address this gap by conducting a data-centric exploration for pretraining SpeechLMs. We focus on three research questions fundamental to speech-language pretraining data: (1) how to process raw web-crawled audio content for speech-text pretraining, (2) how to construct synthetic pretraining datasets to augment web-crawled data and (3) how to interleave (text, audio) segments into training sequences. We apply the insights from our controlled data-centric ablations to pretrain a 3.8B-parameter SpeechLM, called SpeLangy, that outperforms models that are up to 3x larger by 10.2% absolute performance. We hope our findings highlight the impact of effective data curation for speech-language pretraining and guide future data-centric exploration in SpeechLMs.
- Abstract(参考訳): Spoken Question-Answering (SQA)は、有用な対話型人工知能システムのためのコア機能である。
近年,言語モデル(SpeechLMs)がいくつかリリースされ,SQAの性能向上に特化している。
しかし、事前学習したデータ処理とキュレーションの制御方法の欠如は、他のデータモダリティにおける同様の研究からかなりの利益を得たにもかかわらず、どの要因がパフォーマンスに寄与するかを理解するのを困難にしている。
本研究では,SpeechLMの事前学習のためのデータ中心探索を行うことにより,このギャップに対処する。
本研究では,(1) 音声テキスト事前学習のための生のWebcrawled Audio Contentの処理方法,(2) Webcrawled Dataを増強するための合成事前学習データセットの構築方法,(3) テキスト,音声)セグメントをトレーニングシーケンスにインターリーブする方法,の3つの研究課題に焦点をあてる。
SpeLangyと呼ばれる3.8BパラメータのSpeLMを事前訓練するために、制御されたデータ中心のアブレーションからの洞察を適用します。
我々は,音声による事前学習における効果的なデータキュレーションの影響を明らかにするとともに,将来のSpeechLMにおけるデータ中心探索の指針となることを期待する。
関連論文リスト
- Self-supervised learning of speech representations with Dutch archival data [8.504327926435158]
音楽,ノイズ,スピーカの重なりがSSLの収束と下流の微調整性能にどのように影響するかを示す。
本稿では,WhisperとWhisperXを用いて,ノイズの多い放送データセットを定性的な事前学習データセットに変換する。
最後に, 55k時間アーカイブデータセットを用いたwav2vec 2.0 XLS-Rモデルチェックポイントの事前学習を継続することにより, オランダ語に対する最先端の大規模wav2vec 2.0モデルを実現する。
論文 参考訳(メタデータ) (2025-07-06T22:11:22Z) - Speech Unlearning [14.755831733659699]
音声タスクのための機械学習を導入し,新しい研究課題について紹介する。
本研究の目的は、訓練された音声モデルから特定のデータの影響を、完全に再訓練することなく効率的に効果的に除去することである。
プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減に重要な応用がある。
論文 参考訳(メタデータ) (2025-06-01T06:04:16Z) - Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Reduce, Reuse, Recycle: Is Perturbed Data better than Other Language augmentation for Low Resource Self-Supervised Speech Models [48.44820587495038]
自己教師付き表現学習(SSRL)は、音素認識を含むタスクの教師付きモデルよりも優れた性能を示した。
SSRLモデルのトレーニングは、十分な事前学習データが入手できない低リソース言語にとって課題となる。
本稿では,低リソース環境下でのSSRLモデルの事前学習にピッチ変動,雑音付加,アクセント付きターゲット言語,その他の言語音声を用いることを提案し,音素認識の評価を行う。
論文 参考訳(メタデータ) (2023-09-22T10:09:09Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。