論文の概要: Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies
- arxiv url: http://arxiv.org/abs/2011.00406v1
- Date: Sun, 1 Nov 2020 02:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 23:21:34.108507
- Title: Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies
- Title(参考訳): 局所依存に基づく音声表現学習のための非自己回帰予測符号化
- Authors: Alexander H. Liu, Yu-An Chung, James Glass
- Abstract要約: 非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
- 参考スコア(独自算出の注目度): 91.92060221982064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised speech representations have been shown to be effective in a
variety of speech applications. However, existing representation learning
methods generally rely on the autoregressive model and/or observed global
dependencies while generating the representation. In this work, we propose
Non-Autoregressive Predictive Coding (NPC), a self-supervised method, to learn
a speech representation in a non-autoregressive manner by relying only on local
dependencies of speech. NPC has a conceptually simple objective and can be
implemented easily with the introduced Masked Convolution Blocks. NPC offers a
significant speedup for inference since it is parallelizable in time and has a
fixed inference time for each time step regardless of the input sequence
length. We discuss and verify the effectiveness of NPC by theoretically and
empirically comparing it with other methods. We show that the NPC
representation is comparable to other methods in speech experiments on phonetic
and speaker classification while being more efficient.
- Abstract(参考訳): 自己教師付き音声表現は様々な音声応用に有効であることが示されている。
しかし,既存の表現学習手法は,表現を生成する際に,自己回帰モデルやグローバルな依存関係に依存することが多い。
本研究では,非自己回帰予測符号化(NPC)を提案し,音声の局所的依存にのみ依存して非自己回帰的表現を学習する。
npcは概念的に単純な目的を持ち、導入されたマスク畳み込みブロックで容易に実装できる。
npcは時間的に並列化可能であり、入力シーケンスの長さに関係なくステップごとに固定された推論時間を持つため、推論の大幅なスピードアップを提供する。
理論上, 実験的に他の手法と比較することで, NPCの有効性を議論し, 検証する。
また,NPC表現は音声や話者の分類における他の手法と同等であり,より効率的であることを示す。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Autoregressive Co-Training for Learning Discrete Speech Representations [19.400428010647573]
音声の離散表現を学習する離散潜在変数を持つ生成モデルを考える。
提案手法は音素単位と高い相関関係を持つ離散表現を学習する。
論文 参考訳(メタデータ) (2022-03-29T18:17:18Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - DirectProbe: Studying Representations without Classifiers [21.23284793831221]
DirectProbeは、タスクのバージョン空間の概念に基づいて表現の幾何学を研究します。
いくつかの言語的タスクと文脈的埋め込みの実験は、訓練された分類器がなくても、DirectProbeは埋め込み空間がラベルの表現方法に光を当てることができることを示している。
論文 参考訳(メタデータ) (2021-04-13T02:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。