論文の概要: Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation
- arxiv url: http://arxiv.org/abs/2408.10557v1
- Date: Tue, 20 Aug 2024 05:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:03:52.596926
- Title: Speech Representation Learning Revisited: The Necessity of Separate Learnable Parameters and Robust Data Augmentation
- Title(参考訳): 音声表現学習の再考:別個の学習可能なパラメータとロバストデータ強化の必要性
- Authors: Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah,
- Abstract要約: 我々は、学習可能なパラメータを別々に使用して、他の情報をモデリングすることの重要性を理解するための予備的研究を行う。
まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができ、次に、他の情報に依存するタスクに必要な情報を学ぶために、堅牢なデータ拡張戦略が不可欠である。
- 参考スコア(独自算出の注目度): 43.479279052047985
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Speech modeling methods learn one embedding for a fixed segment of speech, typically in between 10-25 ms. The information present in speech can be divided into two categories: "what is being said" (content) and "how it is expressed" (other) and these two are orthogonal in nature causing the optimization algorithm to find a sub-optimal solution if forced to optimize together. This leads to sub-optimal performance in one or all downstream tasks as shown by previous studies. Current self-supervised learning (SSL) methods such as HuBERT are very good at modeling the content information present in speech. Data augmentation improves the performance on tasks which require effective modeling of other information but this leads to a divided capacity of the model. In this work, we conduct a preliminary study to understand the importance of modeling other information using separate learnable parameters. We propose a modified version of HuBERT, termed Other HuBERT (O-HuBERT), to test our hypothesis. Our findings are twofold: first, the O-HuBERT method is able to utilize all layers to build complex features to encode other information; second, a robust data augmentation strategy is essential for learning the information required by tasks that depend on other information and to achieve state-of-the-art (SOTA) performance on the SUPERB benchmark with a similarly sized model (100 million parameters) and pre-training data (960 hours).
- Abstract(参考訳): 音声モデリング手法は、通常10~25msで1つの音声セグメントの埋め込みを学習する。音声に含まれる情報は、「何を言っているか」(コンテンツ)と「どのように表現されているか」(他)の2つのカテゴリに分けられる。
これは、以前の研究で示されているように、1つまたはすべての下流タスクにおける準最適パフォーマンスをもたらす。
HuBERTのような現在の自己教師型学習(SSL)手法は、音声に含まれるコンテンツ情報のモデル化に非常に適している。
データ拡張は、他の情報の効果的なモデリングを必要とするタスクのパフォーマンスを改善するが、これはモデルの分割能力に繋がる。
本研究では,学習可能な別のパラメータを用いて,他の情報のモデリングの重要性を理解するための予備的研究を行う。
我々は我々の仮説をテストするためにHuBERTの修正版であるAther HuBERT (O-HuBERT)を提案する。
まず、O-HuBERT法は、すべてのレイヤを利用して、他の情報をエンコードする複雑な機能を構築することができる。第2に、他の情報に依存するタスクに必要な情報を学習するためには、堅牢なデータ拡張戦略が不可欠であり、同じ大きさのモデル(1億個のパラメータ)と事前学習データ(960時間)を持つSUPERBベンチマーク上で、最先端(SOTA)のパフォーマンスを達成する。
関連論文リスト
- DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。
さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文 参考訳(メタデータ) (2024-11-07T04:38:29Z) - JOOCI: a Framework for Learning Comprehensive Speech Representations [43.479279052047985]
音声中の他の情報とコンテンツ情報を協調的に最適化するエンドツーエンドの音声表現学習フレームワークを提案する。
以上の結果から,JOOCIは類似サイズのSOTAモデルよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-14T20:59:59Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。