論文の概要: Cognitive Coding of Speech
- arxiv url: http://arxiv.org/abs/2110.04241v1
- Date: Fri, 8 Oct 2021 16:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 16:56:26.962048
- Title: Cognitive Coding of Speech
- Title(参考訳): 音声の認知符号化
- Authors: Reza Lotfidereshgi and Philippe Gournay
- Abstract要約: 本稿では,2つの階層的抽象化レベルにおける文脈表現の教師なし抽出による音声の認知符号化手法を提案する。
この分解は、異なる時間スケールで動作している下段と上段の2段階のニューラルネットワークによって達成される。
音声圧縮を念頭に置いて,抽出した表現に対する次元縮小と低量子化の影響について検討する。
- 参考スコア(独自算出の注目度): 6.396288020763143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an approach for cognitive coding of speech by unsupervised
extraction of contextual representations in two hierarchical levels of
abstraction. Speech attributes such as phoneme identity that last one hundred
milliseconds or less are captured in the lower level of abstraction, while
speech attributes such as speaker identity and emotion that persist up to one
second are captured in the higher level of abstraction. This decomposition is
achieved by a two-stage neural network, with a lower and an upper stage
operating at different time scales. Both stages are trained to predict the
content of the signal in their respective latent spaces. A top-down pathway
between stages further improves the predictive capability of the network. With
an application in speech compression in mind, we investigate the effect of
dimensionality reduction and low bitrate quantization on the extracted
representations. The performance measured on the LibriSpeech and EmoV-DB
datasets reaches, and for some speech attributes even exceeds, that of
state-of-the-art approaches.
- Abstract(参考訳): 2つの階層的抽象レベルにおける文脈表現の教師なし抽出による音声の認知符号化手法を提案する。
100ミリ秒以下の音素のアイデンティティなどの音声属性は抽象レベルでキャプチャされ、話者のアイデンティティや1秒まで持続する感情といった音声属性は抽象レベルでキャプチャされる。
この分解は、異なる時間スケールで動作している下段と上段の2段階のニューラルネットワークによって達成される。
両方のステージは、それぞれの潜在空間における信号の内容を予測するように訓練される。
ステージ間のトップダウン経路により、ネットワークの予測能力はさらに向上する。
音声圧縮を念頭に置いて、抽出した表現に対する次元減少と低ビットレート量子化の影響について検討する。
librispeechおよびemov-dbデータセットで測定されたパフォーマンスは到達し、一部の音声属性は最先端のアプローチのそれを超える。
関連論文リスト
- Towards the Next Frontier in Speech Representation Learning Using Disentanglement [34.21745744502759]
本稿では,フレームレベルと発話レベルのエンコーダモジュールから構成される音声の拡散自己監督学習(Learning2Diss)のためのフレームワークを提案する。
提案したLearn2Dissは,フレームレベルのエンコーダ表現が意味的タスクを改善する一方で,発話レベルの表現が非意味的なタスクを改善することにより,様々なタスクにおける最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-02T07:13:35Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Learning utterance-level representations through token-level acoustic
latents prediction for Expressive Speech Synthesis [3.691712391306624]
細粒度潜在空間もまた粗粒度情報を捉えており、これは多彩な韻律表現を捉えるために潜在空間の次元が大きくなるにつれて明らかである。
本稿では、まず、豊富な音声属性をトークンレベル潜在空間にキャプチャし、入力テキストを付与した先行ネットワークを個別に訓練し、前ステップで抽出した音素レベル後潜在音を予測するために、発話レベル表現を学習することでこの問題を軽減する。
論文 参考訳(メタデータ) (2022-11-01T15:17:25Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - WavThruVec: Latent speech representation as intermediate features for
neural speech synthesis [1.1470070927586016]
WavThruVecは、高次元のWav2Vec 2.0埋め込みを中間音声表現として使用することでボトルネックを解決する2段階アーキテクチャである。
提案モデルは,最先端のニューラルモデルの品質に適合するだけでなく,音声変換やゼロショット合成といったタスクを可能にする有用な特性も提示する。
論文 参考訳(メタデータ) (2022-03-31T10:21:08Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。