論文の概要: Modeling speech recognition and synthesis simultaneously: Encoding and
decoding lexical and sublexical semantic information into speech with no
direct access to speech data
- arxiv url: http://arxiv.org/abs/2203.11476v1
- Date: Tue, 22 Mar 2022 06:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 14:45:01.993289
- Title: Modeling speech recognition and synthesis simultaneously: Encoding and
decoding lexical and sublexical semantic information into speech with no
direct access to speech data
- Title(参考訳): 音声認識と合成のモデリング : 音声データに直接アクセスしない音声に語彙的・語彙的意味情報をエンコード・デコードする
- Authors: Ga\v{s}per Begu\v{s}, Alan Zhou
- Abstract要約: 我々は,非教師付き語彙学習において最も困難な目的である,辞書項目にユニークな表現を割り当てることを学ぶ教師なしネットワークを紹介した。
語彙学習に賛成する強い証拠が現れる。
生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human speakers encode information into raw speech which is then decoded by
the listeners. This complex relationship between encoding (production) and
decoding (perception) is often modeled separately. Here, we test how decoding
of lexical and sublexical semantic information can emerge automatically from
raw speech in unsupervised generative deep convolutional networks that combine
both the production and perception principle. We introduce, to our knowledge,
the most challenging objective in unsupervised lexical learning: an
unsupervised network that must learn to assign unique representations for
lexical items with no direct access to training data. We train several models
(ciwGAN and fiwGAN by [1]) and test how the networks classify raw acoustic
lexical items in the unobserved test data. Strong evidence in favor of lexical
learning emerges. The architecture that combines the production and perception
principles is thus able to learn to decode unique information from raw acoustic
data in an unsupervised manner without ever accessing real training data. We
propose a technique to explore lexical and sublexical learned representations
in the classifier network. The results bear implications for both unsupervised
speech synthesis and recognition as well as for unsupervised semantic modeling
as language models increasingly bypass text and operate from raw acoustics.
- Abstract(参考訳): 人間の話者は情報を生の音声にエンコードし、リスナーによってデコードされる。
このエンコーディング(プロダクション)とデコーディング(パーセプション)の間の複雑な関係は、しばしば別々にモデル化される。
本稿では,生成と知覚の原則を結合した教師なし生成型深層畳み込みネットワークにおいて,語彙的意味情報の復号が生の音声から自動的に発生するかを検証した。
我々は,教師なし語彙学習における最も困難な目標である知識について紹介する。教師なしネットワークは,学習データに直接アクセスすることなく語彙項目に対してユニークな表現を割り当てることを学ぶ必要がある。
我々は,いくつかのモデル (ciwGAN と fiwGAN by [1]) を訓練し,未観測試験データにおける生音響語彙項目の分類方法をテストする。
語彙学習を支持する強い証拠が現れる。
生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。
分類器ネットワークにおける語彙および語彙の学習表現を探索する手法を提案する。
その結果、言語モデルがテキストをバイパスし、生の音響から操作するにつれて、教師なし音声合成と認識と教師なし意味モデリングの両方に意味がある。
関連論文リスト
- Basic syntax from speech: Spontaneous concatenation in unsupervised deep neural networks [8.683116789109462]
私たちは構文の最もユビキタスで初歩的な部分操作の1つに焦点を合わせます。
本稿では,個々の単語の音響記録を訓練した畳み込みニューラルネットワーク(CNN)が出力を発生させる現象について紹介する。
また、結合性や構成性への神経経路を概説するディスインヒビション(disinhibition)と呼ばれる潜在的な神経機構を提案する。
論文 参考訳(メタデータ) (2023-05-02T17:38:21Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z) - CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks [0.0]
語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:33:55Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。