論文の概要: Generative Spoken Language Model based on continuous word-sized audio
tokens
- arxiv url: http://arxiv.org/abs/2310.05224v1
- Date: Sun, 8 Oct 2023 16:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 09:10:31.559345
- Title: Generative Spoken Language Model based on continuous word-sized audio
tokens
- Title(参考訳): 連続語サイズの音声トークンに基づく生成音声言語モデル
- Authors: Robin Algayres, Yossi Adi, Tu Anh Nguyen, Jade Copet, Gabriel
Synnaeve, Benoit Sagot, Emmanuel Dupoux
- Abstract要約: 本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
- 参考スコア(独自算出の注目度): 52.081868603603844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In NLP, text language models based on words or subwords are known to
outperform their character-based counterparts. Yet, in the speech community,
the standard input of spoken LMs are 20ms or 40ms-long discrete units (shorter
than a phoneme). Taking inspiration from word-based LM, we introduce a
Generative Spoken Language Model (GSLM) based on word-size continuous-valued
audio embeddings that can generate diverse and expressive language output. This
is obtained by replacing lookup table for lexical types with a Lexical
Embedding function, the cross entropy loss by a contrastive loss, and
multinomial sampling by k-NN sampling. The resulting model is the first
generative language model based on word-size continuous embeddings. Its
performance is on par with discrete unit GSLMs regarding generation quality as
measured by automatic metrics and subjective human judgements. Moreover, it is
five times more memory efficient thanks to its large 200ms units. In addition,
the embeddings before and after the Lexical Embedder are phonetically and
semantically interpretable.
- Abstract(参考訳): NLPでは、単語やサブワードに基づくテキスト言語モデルは、文字ベースの言語よりも優れていることが知られている。
しかし、音声コミュニティでは、音声 lms の標準入力は 20ms または 40ms の離散単位(音素よりも短い)である。
単語ベースLMからインスピレーションを得て,多種多様な表現型言語出力を生成可能な単語サイズ連続評価音声埋め込みに基づく生成音声言語モデル(GSLM)を導入する。
これは、語彙型のルックアップテーブルをレキシカルエンベディング関数に置き換え、コントラスト損失によるクロスエントロピー損失、k-NNサンプリングによるマルチノードサンプリングにより得られる。
得られたモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
その性能は、自動測定と主観的人間の判断による生成品質に関する離散単位gslmと同等である。
さらに、200msの大きなユニットのおかげで、メモリ効率は5倍になる。
また、語彙埋め込み者の前後の埋め込みは音韻的かつ意味的に解釈可能である。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Text-Free Prosody-Aware Generative Spoken Language Modeling [46.19240899818964]
pGSLM(Prosody-aware Generative Speech Language Model)を提案する。
音声のマルチストリームトランスフォーマー言語モデル(MS-TLM)と、MS-TLM出力を波形に変換する適応型HiFi-GANモデルで構成されている。
実験結果から, pGSLMは韻律とコンテンツモデリングの両方を改善するために韻律を利用することができ, 自然な, 意味のある, 一貫性のある音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-09-07T18:03:21Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z) - The Zero Resource Speech Benchmark 2021: Metrics and baselines for
unsupervised spoken language modeling [23.517751578968344]
ラベルのない生音声信号から言語表現を学習する。
自己教師型コントラスト表現学習(CPC)、クラスタリング(k-means)、言語モデリング(LSTMまたはBERT)による合成ベースラインの結果と解析について述べる。
この単純なパイプラインは、4つのメトリクスすべてに対して偶然のパフォーマンスよりも優れており、生の音声による音声言語モデリングの可能性を示している。
論文 参考訳(メタデータ) (2020-11-23T18:01:37Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。