論文の概要: JOOCI: a Framework for Learning Comprehensive Speech Representations
- arxiv url: http://arxiv.org/abs/2410.11086v1
- Date: Mon, 14 Oct 2024 20:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:51.691591
- Title: JOOCI: a Framework for Learning Comprehensive Speech Representations
- Title(参考訳): JOOCI: 包括的音声表現学習フレームワーク
- Authors: Hemant Yadav, Rajiv Ratn Shah, Sunayana Sitaram,
- Abstract要約: 音声中の他の情報とコンテンツ情報を協調的に最適化するエンドツーエンドの音声表現学習フレームワークを提案する。
以上の結果から,JOOCIは類似サイズのSOTAモデルよりも一貫して優れていることがわかった。
- 参考スコア(独自算出の注目度): 43.479279052047985
- License:
- Abstract: Information in speech can be divided into two categories: what is being said (content) and how it is expressed (other). Current state-of-the-art (SOTA) techniques model speech at fixed segments, usually 10-25 ms, using a single embedding. Given the orthogonal nature of other and content information, attempting to optimize both within a single embedding results in suboptimal solutions. This approach divides the models capacity, limiting its ability to build complex hierarchical features effectively. In this work, we present an end-to-end speech representation learning framework designed to jointly optimize the other and content information (JOOCI) in speech. By using separate learnable parameters, JOOCI addresses this optimization challenge by modeling other and content information independently. Our results show that JOOCI consistently outperforms other SOTA models of similar size (100 million parameters) and pre-training data used (960 hours) by a significant margin when evaluated on a range of speech downstream tasks in the SUPERB benchmark, as shown in Table 1.
- Abstract(参考訳): 音声の情報は、何を言っているか(コンテンツ)とどのように表現されているか(他のもの)の2つのカテゴリに分けられる。
現在の最先端技術(SOTA)技術は、単一の埋め込みを用いて、固定セグメント(通常は10-25ms)で音声をモデル化する。
他の情報とコンテンツ情報の直交性を考えると、単一の埋め込み内で両方の最適化を試みれば、最適でない解が得られる。
このアプローチはモデルのキャパシティを分割し、複雑な階層的な機能を効果的に構築する能力を制限する。
本研究では,他言語とコンテンツ情報(JOOCI)を協調的に最適化するエンドツーエンドの音声表現学習フレームワークを提案する。
学習可能なパラメータを別々に使用することにより、JOOCIは、他の情報とコンテンツ情報を独立してモデリングすることで、この最適化課題に対処する。
JOOCIは、表1に示すように、SUPERBベンチマークの音声ダウンストリームタスクの範囲で評価すると、同じ大きさ(1億のパラメータ)のSOTAモデルと使用済みの事前学習データ(960時間)の差を著しく上回っている。
関連論文リスト
- What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition [9.853451215277346]
自己教師付き階層表現(SSHR)を利用してMMSモデルを微調整する新しい手法を提案する。
我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-09-29T02:35:36Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。