論文の概要: Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study
- arxiv url: http://arxiv.org/abs/2309.15800v1
- Date: Wed, 27 Sep 2023 17:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:30:43.543929
- Title: Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study
- Title(参考訳): 離散音声単位を用いた音声認識・翻訳・理解の検討--比較研究
- Authors: Xuankai Chang and Brian Yan and Kwanghee Choi and Jeeweon Jung and
Yichen Lu and Soumi Maiti and Roshan Sharma and Jiatong Shi and Jinchuan Tian
and Shinji Watanabe and Yuya Fujita and Takashi Maekaku and Pengcheng Guo and
Yao-Fei Cheng and Pavel Denisov and Kohei Saijo and Hsiu-Hsuan Wang
- Abstract要約: 音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
- 参考スコア(独自算出の注目度): 68.88536866933038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech signals, typically sampled at rates in the tens of thousands per
second, contain redundancies, evoking inefficiencies in sequence modeling.
High-dimensional speech features such as spectrograms are often used as the
input for the subsequent model. However, they can still be redundant. Recent
investigations proposed the use of discrete speech units derived from
self-supervised learning representations, which significantly compresses the
size of speech data. Applying various methods, such as de-duplication and
subword modeling, can further compress the speech sequence length. Hence,
training time is significantly reduced while retaining notable performance. In
this study, we undertake a comprehensive and systematic exploration into the
application of discrete units within end-to-end speech processing models.
Experiments on 12 automatic speech recognition, 3 speech translation, and 1
spoken language understanding corpora demonstrate that discrete units achieve
reasonably good results in almost all the settings. We intend to release our
configurations and trained models to foster future research efforts.
- Abstract(参考訳): 音声信号は通常、毎秒数万回のレートでサンプリングされ、冗長性を含み、シーケンスモデリングの非効率性を引き起こす。
スペクトログラムのような高次元音声特徴は、後続のモデルの入力としてしばしば使用される。
しかし、それらはまだ冗長である。
近年の研究では、自己教師付き学習表現から派生した離散音声単位を用いることが提案されている。
重複解消やサブワードモデリングなどの様々な手法を適用することで、音声シーケンス長をさらに圧縮することができる。
これにより、顕著な性能を維持しつつ、トレーニング時間が大幅に短縮される。
本研究では,エンドツーエンドの音声処理モデルにおける離散単位の適用について,包括的かつ体系的に検討する。
12の音声認識、3つの音声翻訳、1つの音声言語理解コーパスの実験により、離散単位がほぼ全ての設定において合理的に良い結果が得られることを示した。
私たちは、将来の研究活動を促進するために、設定とトレーニングモデルをリリースするつもりです。
関連論文リスト
- SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - Sample-Efficient Diffusion for Text-To-Speech Synthesis [31.372486998377966]
U-Audio Transformer (U-AT)と呼ばれる新しい拡散アーキテクチャに基づいている。
SESDは1k時間未満の音声のトレーニングにもかかわらず、印象的な結果が得られる。
2%未満のトレーニングデータを使用しながら、最先端の自己回帰モデルであるVALL-Eよりも知的な音声を合成する。
論文 参考訳(メタデータ) (2024-09-01T20:34:36Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。