論文の概要: Analysing Discrete Self Supervised Speech Representation for Spoken
Language Modeling
- arxiv url: http://arxiv.org/abs/2301.00591v1
- Date: Mon, 2 Jan 2023 10:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:46:04.211110
- Title: Analysing Discrete Self Supervised Speech Representation for Spoken
Language Modeling
- Title(参考訳): 音声言語モデルのための離散的自己教師あり音声表現の分析
- Authors: Amitay Sicherman, Yossi Adi
- Abstract要約: この研究は、生成音声言語モデリングの目を通して、個別の自己教師付き音声表現を深く分析する。
GSLMの離散ユニットの実用的改善を提案する。
- 参考スコア(独自算出の注目度): 21.19785690690611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work profoundly analyzes discrete self-supervised speech representations
through the eyes of Generative Spoken Language Modeling (GSLM). Following the
findings of such an analysis, we propose practical improvements to the discrete
unit for the GSLM. First, we start comprehending these units by analyzing them
in three axes: interpretation, visualization, and resynthesis. Our analysis
finds a high correlation between the speech units to phonemes and phoneme
families, while their correlation with speaker or gender is weaker.
Additionally, we found redundancies in the extracted units and claim that one
reason may be the units' context. Following this analysis, we propose a new,
unsupervised metric to measure unit redundancies. Finally, we use this metric
to develop new methods that improve the robustness of units clustering and show
significant improvement considering zero-resource speech metrics such as ABX.
Code and analysis tools are available under the following link.
- Abstract(参考訳): 本研究は、GSLM(Generative Spoken Language Modeling)の目を通して、個別の自己教師型音声表現を深く分析する。
このような分析の結果から,gslmの離散単位の実用的改善を提案する。
まず、これらのユニットを解釈、可視化、再合成の3つの軸で分析し、理解し始める。
分析の結果,音声単位と音素,音素の相関は高いが,話者や性別との相関は弱いことがわかった。
さらに,抽出した単位の冗長性を発見し,その1つの理由が単位のコンテキストであると主張した。
この分析に続いて,単位冗長性を測定するための新しい教師なし計量を提案する。
最後に、この指標を用いて、単位クラスタリングの堅牢性を向上させる新しい手法を開発し、ABXなどのゼロリソース音声メトリクスを考慮し、大幅な改善を示す。
コードと分析ツールは以下のリンクで利用可能である。
関連論文リスト
- Exploring the Benefits of Tokenization of Discrete Acoustic Units [4.591279524925446]
トークン化アルゴリズムは、基本語彙の単位をより大きな可変レート単位にマージする。
トークン化は、トレーニングや推論の速度だけでなく、パフォーマンスの観点からも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-06-08T18:34:28Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic
Organization in HuBERT [49.06057768982775]
音声の文レベル表現の学習において,音節的組織が出現することを示す。
本稿では,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:05:36Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。