論文の概要: Variable-rate discrete representation learning
- arxiv url: http://arxiv.org/abs/2103.06089v1
- Date: Wed, 10 Mar 2021 14:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:02:46.172570
- Title: Variable-rate discrete representation learning
- Title(参考訳): 可変レート離散表現学習
- Authors: Sander Dieleman, Charlie Nash, Jesse Engel, Karen Simonyan
- Abstract要約: シーケンスの高レベルな可変レート離散表現の教師なし学習のための遅いオートエンコーダを提案する。
入力信号の正解情報の密度に応じて,結果のイベントベース表現が自動的に成長または縮小することを示す。
イベントベース表現モデリングのためのラン長変換器を開発し,音声領域における言語モデルの構築に使用する。
- 参考スコア(独自算出の注目度): 20.81400194698063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantically meaningful information content in perceptual signals is usually
unevenly distributed. In speech signals for example, there are often many
silences, and the speed of pronunciation can vary considerably. In this work,
we propose slow autoencoders (SlowAEs) for unsupervised learning of high-level
variable-rate discrete representations of sequences, and apply them to speech.
We show that the resulting event-based representations automatically grow or
shrink depending on the density of salient information in the input signals,
while still allowing for faithful signal reconstruction. We develop run-length
Transformers (RLTs) for event-based representation modelling and use them to
construct language models in the speech domain, which are able to generate
grammatical and semantically coherent utterances and continuations.
- Abstract(参考訳): 知覚信号における意味のある情報内容は通常不均等に分布する。
例えば、音声信号では、しばしば多くの沈黙があり、発音の速度はかなり異なることがあります。
本研究では,低速オートエンコーダ (SlowAEs) を高レベル変数レート離散表現の教師なし学習用として提案し,それを音声に適用する。
入力信号の正解情報の密度に応じて,結果のイベントベース表現が自動的に成長あるいは縮小し,忠実な信号再構成が可能であることを示す。
イベントベースの表現モデリングのためのランレングストランスフォーマー(RLT)を開発し、それらを音声ドメイン内の言語モデルの構築に使用し、文法的および意味的に一貫性のある発話と継続を生成することができる。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Representation Learning in Continuous-Time Score-Based Generative Models [19.990583896271573]
このようなモデルのトレーニングは、マルチスケールのデノナイジングオートエンコーダとして見ることのできるスコアマッチングのデノナイジングに依存している。
そこで我々は,教師あり信号のない表現学習を実現するために,デノベーションスコアマッチングフレームワークを拡張した。
対照的に、スコアに基づく表現学習は、スコアマッチング目的の新たな定式化に依存している。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Guided Variational Autoencoder for Speech Enhancement With a Supervised
Classifier [20.28217079480463]
本研究では,雑音音声を別々に訓練した教師付き分類器を用いて,可変オートエンコーダの導出を提案する。
推定ラベルは、音声信号を記述する高レベルなカテゴリー変数である。
本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。
論文 参考訳(メタデータ) (2021-02-12T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。