論文の概要: Are discrete units necessary for Spoken Language Modeling?
- arxiv url: http://arxiv.org/abs/2203.05936v1
- Date: Fri, 11 Mar 2022 14:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 15:16:11.188479
- Title: Are discrete units necessary for Spoken Language Modeling?
- Title(参考訳): 音声言語モデリングには離散単位が必要か?
- Authors: Tu Anh Nguyen, Benoit Sagot, Emmanuel Dupoux
- Abstract要約: 音声言語モデリングにおける最近の研究は、テキストラベルなしで生音声から教師なしの言語を学ぶ可能性を示している。
音声言語モデリングの優れた結果を得るためには,離散化が不可欠であることを示す。
また、HuBERTのような個別のターゲットで訓練されたエンドツーエンドモデルは、擬似テキストで訓練された最良の言語モデルと同様の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 10.374092717909603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in spoken language modeling shows the possibility of learning a
language unsupervisedly from raw audio without any text labels. The approach
relies first on transforming the audio into a sequence of discrete units (or
pseudo-text) and then training a language model directly on such pseudo-text.
Is such a discrete bottleneck necessary, potentially introducing irreversible
errors in the encoding of the speech signal, or could we learn a language model
without discrete units at all? In this work, show that discretization is indeed
essential for good results in spoken language modeling, but that can omit the
discrete bottleneck if we use using discrete target features from a higher
level than the input features. We also show that an end-to-end model trained
with discrete target like HuBERT achieves similar results as the best language
model trained on pseudo-text on a set of zero-shot spoken language modeling
metrics from the Zero Resource Speech Challenge 2021.
- Abstract(参考訳): 音声言語モデリングにおける最近の研究は、テキストラベルなしで生音声から教師なしの言語を学ぶ可能性を示している。
このアプローチは、まずオーディオを独立した単位(または擬似テキスト)のシーケンスに変換し、その後、そのような擬似テキストに基づいて言語モデルをトレーニングする。
このような離散的ボトルネックは必要か、音声信号の符号化に不可逆的エラーをもたらす可能性があるのか、それとも離散的単位を全く持たない言語モデルを学ぶことができるのか?
本研究は,音声言語モデリングのよい結果には,離散化が不可欠であることを示すが,入力特徴量よりも高いレベルから離散的目標機能を使用する場合,離散的ボトルネックを省くことができる。
また、HuBERTのような個別ターゲットで訓練されたエンドツーエンドモデルは、ゼロリソース音声チャレンジ2021のゼロショット音声言語モデリングメトリクスのセットに基づいて擬似テキストで訓練された最高の言語モデルと同様の結果が得られることを示す。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。