論文の概要: Spoken Language Modeling with Duration-Penalized Self-Supervised Units
- arxiv url: http://arxiv.org/abs/2505.23494v1
- Date: Thu, 29 May 2025 14:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.907156
- Title: Spoken Language Modeling with Duration-Penalized Self-Supervised Units
- Title(参考訳): 継続時間付き自己監督単位を用いた音声言語モデリング
- Authors: Nicol Visser, Herman Kamper,
- Abstract要約: 音声言語モデル(SLM)は、自己教師付き音声表現を識別して得られる音響単位で動作する。
コードブックのサイズと単位の粗さ(すなわち持続時間)の相互作用は未解明のままである。
- 参考スコア(独自算出の注目度): 20.06539895576361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language models (SLMs) operate on acoustic units obtained by discretizing self-supervised speech representations. Although the characteristics of these units directly affect performance, the interaction between codebook size and unit coarseness (i.e., duration) remains unexplored. We investigate SLM performance as we vary codebook size and unit coarseness using the simple duration-penalized dynamic programming (DPDP) method. New analyses are performed across different linguistic levels. At the phone and word levels, coarseness provides little benefit, as long as the codebook size is chosen appropriately. However, when producing whole sentences in a resynthesis task, SLMs perform better with coarser units. In lexical and syntactic language modeling tasks, coarser units also give higher accuracies at lower bitrates. We therefore show that coarser units aren't always better, but that DPDP is a simple and efficient way to obtain coarser units for the tasks where they are beneficial.
- Abstract(参考訳): 音声言語モデル(SLM)は、自己教師付き音声表現を識別して得られる音響単位で動作する。
これらのユニットの特徴はパフォーマンスに直接影響するが、コードブックのサイズと単位の粗さ(すなわち持続時間)の相互作用はいまだ解明されていない。
我々は,SLMの性能について,DPDP法を用いて,コードブックのサイズや単位粗さに変化があるとして検討する。
新しい分析は言語レベルによって異なる。
電話やワードレベルでは、コードブックのサイズが適切に選択されている限り、粗さはほとんど利点がない。
しかしながら、再合成タスクで全文を生成する場合、SLMは粗い単位でより良く機能する。
語彙的および構文的言語モデリングタスクでは、粗い単位は低いビットレートで高い精度を与える。
したがって、粗い単位は必ずしも良いものではないが、DPDPは有用であるタスクの粗い単位を得るための単純で効率的な方法であることを示す。
関連論文リスト
- Segmentation-Variant Codebooks for Preservation of Paralinguistic and Prosodic Information [18.352624290814973]
SSL音声モデルの量子化は、韻律情報とパラ言語情報を捨てる。
本稿では,異なる言語単位で音声を定量化するSVCを提案する。
SVCは、探索タスク全体にわたる韻律情報やパラ言語情報の保存において、はるかに効果的である。
論文 参考訳(メタデータ) (2025-05-21T15:44:32Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Speaking Style Conversion in the Waveform Domain Using Discrete
Self-Supervised Units [27.619740864818453]
録音のリズム, ピッチの輪郭, 音色を, 無音でターゲット話者に変換する新しい軽量な手法であるdisSCを紹介する。
提案手法は、事前訓練された自己教師型モデルを用いて、音声を離散単位に符号化する。
論文 参考訳(メタデータ) (2022-12-19T18:53:04Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。