論文の概要: The Interspeech Zero Resource Speech Challenge 2021: Spoken language
modelling
- arxiv url: http://arxiv.org/abs/2104.14700v1
- Date: Thu, 29 Apr 2021 23:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 02:27:06.388673
- Title: The Interspeech Zero Resource Speech Challenge 2021: Spoken language
modelling
- Title(参考訳): interspeech zero resource speech challenge 2021: 音声言語モデリング
- Authors: Ewan Dunbar, Mathieu Bernard, Nicolas Hamilakis, Tu Anh Nguyen,
Maureen de Seyssel, Patricia Roz\'e, Morgane Rivi\`ere, Eugene Kharitonov,
Emmanuel Dupoux
- Abstract要約: 本稿では,テキストやラベルを使わずに,音声から直接言語モデルを学ぶよう参加者に求めるゼロリソース音声チャレンジ2021を紹介する。
課題はLibri-lightデータセットに基づいており、関連するテキストなしで英語のオーディオブックから最大60k時間のオーディオを提供します。
- 参考スコア(独自算出の注目度): 19.525392906001624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the Zero Resource Speech Challenge 2021, which asks participants
to learn a language model directly from audio, without any text or labels. The
challenge is based on the Libri-light dataset, which provides up to 60k hours
of audio from English audio books without any associated text. We provide a
pipeline baseline system consisting on an encoder based on contrastive
predictive coding (CPC), a quantizer ($k$-means) and a standard language model
(BERT or LSTM). The metrics evaluate the learned representations at the
acoustic (ABX discrimination), lexical (spot-the-word), syntactic
(acceptability judgment) and semantic levels (similarity judgment). We present
an overview of the eight submitted systems from four groups and discuss the
main results.
- Abstract(参考訳): 本稿では,テキストやラベルを使わずに,音声から直接言語モデルを学ぶよう参加者に求めるゼロリソース音声チャレンジ2021を紹介する。
この課題はLibri-lightデータセットに基づいており、関連するテキストなしで英語のオーディオブックから最大60k時間のオーディオを提供する。
コントラスト予測符号化(cpc)、量子化器(k$-means)、標準言語モデル(bertまたはlstm)に基づくエンコーダに基づくパイプラインベースラインシステムを提供する。
評価基準は,音響(ABX識別),語彙(スポット・ザ・ワード),構文(アクセプタビリティ判定),意味レベル(類似性判定)における学習表現を評価する。
本稿では,4つのグループから提出された8つのシステムの概要を紹介する。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Direct Text to Speech Translation System using Acoustic Units [12.36988942647101]
本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。
提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
論文 参考訳(メタデータ) (2023-09-14T07:35:14Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z) - The Zero Resource Speech Benchmark 2021: Metrics and baselines for
unsupervised spoken language modeling [23.517751578968344]
ラベルのない生音声信号から言語表現を学習する。
自己教師型コントラスト表現学習(CPC)、クラスタリング(k-means)、言語モデリング(LSTMまたはBERT)による合成ベースラインの結果と解析について述べる。
この単純なパイプラインは、4つのメトリクスすべてに対して偶然のパフォーマンスよりも優れており、生の音声による音声言語モデリングの可能性を示している。
論文 参考訳(メタデータ) (2020-11-23T18:01:37Z) - The Zero Resource Speech Challenge 2020: Discovering discrete subword
and word units [40.41406551797358]
Zero Resource Speech Challenge 2020は、ラベルなしで生の音声信号から音声表現を学ぶことを目的としている。
提案した20のモデルの結果を提示し、教師なし音声学習における主な研究結果の意義について考察する。
論文 参考訳(メタデータ) (2020-10-12T18:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。