論文の概要: Neural Speech Embeddings for Speech Synthesis Based on Deep Generative
Networks
- arxiv url: http://arxiv.org/abs/2312.05814v2
- Date: Tue, 27 Feb 2024 02:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:39:26.157692
- Title: Neural Speech Embeddings for Speech Synthesis Based on Deep Generative
Networks
- Title(参考訳): 深層生成ネットワークに基づく音声合成のためのニューラル音声埋め込み
- Authors: Seo-Hyun Lee, Young-Eun Lee, Soowon Kim, Byung-Kwan Ko, Jun-Young Kim,
Seong-Whan Lee
- Abstract要約: 脳信号から音声合成が可能な脳音声合成技術について紹介する。
また, 音声処理中に神経生理学的活性化の基盤となる神経特徴と音声の埋め込みを包括的に分析した。
- 参考スコア(独自算出の注目度): 27.64740032872726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-to-speech technology represents a fusion of interdisciplinary
applications encompassing fields of artificial intelligence, brain-computer
interfaces, and speech synthesis. Neural representation learning based
intention decoding and speech synthesis directly connects the neural activity
to the means of human linguistic communication, which may greatly enhance the
naturalness of communication. With the current discoveries on representation
learning and the development of the speech synthesis technologies, direct
translation of brain signals into speech has shown great promise. Especially,
the processed input features and neural speech embeddings which are given to
the neural network play a significant role in the overall performance when
using deep generative models for speech generation from brain signals. In this
paper, we introduce the current brain-to-speech technology with the possibility
of speech synthesis from brain signals, which may ultimately facilitate
innovation in non-verbal communication. Also, we perform comprehensive analysis
on the neural features and neural speech embeddings underlying the
neurophysiological activation while performing speech, which may play a
significant role in the speech synthesis works.
- Abstract(参考訳): 脳音声技術は、人工知能、脳-コンピュータインタフェース、音声合成の分野を含む学際的応用の融合を表す。
ニューラル表現学習に基づく意図的復号と音声合成は、神経活動と人間の言語コミュニケーションの手段を直接接続し、コミュニケーションの自然性を大幅に向上させる。
表現学習と音声合成技術の発展に関する最近の発見により、脳信号の音声への直接翻訳は大きな可能性を秘めている。
特に、ニューラルネットワークに与えられた処理された入力特徴とニューラルスピーチ埋め込みは、脳信号からの音声生成に深い生成モデルを使用する場合、全体的なパフォーマンスにおいて重要な役割を果たす。
本稿では,脳信号からの音声合成を可能とし,最終的には非言語コミュニケーションの革新を促進する現在の脳-音声技術を紹介する。
また,音声合成作業において重要な役割を担っていると思われる,神経生理学的アクティベーションの基盤となる神経特徴や音声の埋め込みを包括的に分析する。
関連論文リスト
- Enhancing learning in artificial neural networks through cellular heterogeneity and neuromodulatory signaling [52.06722364186432]
人工ニューラルネットワーク(ANN)の強化のための生物学的インフォームドフレームワークを提案する。
提案したデュアルフレームアプローチは、多様なスパイキング動作をエミュレートするためのスパイキングニューラルネットワーク(SNN)の可能性を強調している。
提案手法は脳にインスパイアされたコンパートメントモデルとタスク駆動型SNN, バイオインスピレーション, 複雑性を統合している。
論文 参考訳(メタデータ) (2024-07-05T14:11:28Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Towards Decoding Brain Activity During Passive Listening of Speech [0.0]
深層学習法を用いて頭蓋内脳波(iEEG)データから発声音声を復号しようとする。
このアプローチは、従来の音声生成の焦点から外れ、知覚された音声の神経表現を調査することを選択する。
アプローチはまだ画期的な成果を上げていないが、この研究は、音声認識中の神経活動の復号化の可能性に光を当てている。
論文 参考訳(メタデータ) (2024-02-26T20:04:01Z) - Brain-Inspired Machine Intelligence: A Survey of
Neurobiologically-Plausible Credit Assignment [65.268245109828]
本稿では,神経生物学にインスパイアされた,あるいは動機付けられた人工ニューラルネットワークにおける信用割当を行うアルゴリズムについて検討する。
我々は、脳にインスパイアされた学習スキームを6つの一般的なファミリーにまとめ、これらを誤りのバックプロパゲーションの文脈で検討する。
本研究の成果は,神経ミメティックシステムとその構成的学習プロセスの今後の発展を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T05:20:57Z) - Speech-Gesture GAN: Gesture Generation for Robots and Embodied Agents [5.244401764969407]
仮想エージェントや社会ロボットという形で、身体エージェントが急速に普及している。
音声テキストと音声の発話から関節角度の連続を生成できる新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-17T18:46:25Z) - BrainBERT: Self-supervised representation learning for intracranial
recordings [18.52962864519609]
我々は、神経科学に現代的な表現学習アプローチをもたらす頭蓋内記録のための再利用可能な変換器BrainBERTを開発した。
NLPや音声認識と同様に、この変換器は複雑な概念を高い精度で、はるかに少ないデータで分類することができる。
将来的には、表現学習を使用することで、はるかに多くの概念がニューラル録音から切り離され、言語モデルがアンロックされた言語のように脳をアンロックする可能性がある。
論文 参考訳(メタデータ) (2023-02-28T07:40:37Z) - Deep Learning Models to Study Sentence Comprehension in the Human Brain [0.1503974529275767]
自然言語を処理する最近の人工ニューラルネットワークは、文レベルの理解を必要とするタスクにおいて、前例のないパフォーマンスを達成する。
我々は、これらの人工言語モデルと人間の脳活動を比較する研究をレビューし、このアプローチが自然言語理解に関わる神経プロセスの理解をいかに改善したかを評価する。
論文 参考訳(メタデータ) (2023-01-16T10:31:25Z) - Constraints on the design of neuromorphic circuits set by the properties
of neural population codes [61.15277741147157]
脳内では、情報はコード化され、伝達され、行動を伝えるために使用される。
ニューロモルフィック回路は、脳内のニューロンの集団が使用するものと互換性のある方法で情報を符号化する必要がある。
論文 参考訳(メタデータ) (2022-12-08T15:16:04Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Towards efficient end-to-end speech recognition with
biologically-inspired neural networks [10.457580011403289]
軸-体性および軸-体性シナプスを模擬した神経接続概念を導入する。
我々は,大規模ASRモデルの生物学的に現実的な実装によって,競争性能が向上できることを初めて実証した。
論文 参考訳(メタデータ) (2021-10-04T21:24:10Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。