論文の概要: SpikeVoice: High-Quality Text-to-Speech Via Efficient Spiking Neural Network
- arxiv url: http://arxiv.org/abs/2408.00788v1
- Date: Wed, 17 Jul 2024 15:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:18:32.835933
- Title: SpikeVoice: High-Quality Text-to-Speech Via Efficient Spiking Neural Network
- Title(参考訳): SpikeVoice: 効率的なスパイクニューラルネットワークによる高品質テキスト音声合成
- Authors: Kexin Wang, Jiahong Zhang, Yong Ren, Man Yao, Di Shang, Bo Xu, Guoqi Li,
- Abstract要約: スパイキングニューラルネットワーク(SNN)は、視覚、自然言語、音声理解タスクにおいて、その効果と効率を実証している。
SNNを介して高品質のテキスト音声(TTS)を実行するtextbfSpikeVoiceを設計し、SNNの「話す」可能性を探る。
- 参考スコア(独自算出の注目度): 21.487450282438125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain-inspired Spiking Neural Network (SNN) has demonstrated its effectiveness and efficiency in vision, natural language, and speech understanding tasks, indicating their capacity to "see", "listen", and "read". In this paper, we design \textbf{SpikeVoice}, which performs high-quality Text-To-Speech (TTS) via SNN, to explore the potential of SNN to "speak". A major obstacle to using SNN for such generative tasks lies in the demand for models to grasp long-term dependencies. The serial nature of spiking neurons, however, leads to the invisibility of information at future spiking time steps, limiting SNN models to capture sequence dependencies solely within the same time step. We term this phenomenon "partial-time dependency". To address this issue, we introduce Spiking Temporal-Sequential Attention STSA in the SpikeVoice. To the best of our knowledge, SpikeVoice is the first TTS work in the SNN field. We perform experiments using four well-established datasets that cover both Chinese and English languages, encompassing scenarios with both single-speaker and multi-speaker configurations. The results demonstrate that SpikeVoice can achieve results comparable to Artificial Neural Networks (ANN) with only 10.5 energy consumption of ANN.
- Abstract(参考訳): ブレインインスパイアされたスパイキングニューラルネットワーク(SNN)は、視覚、自然言語、音声理解タスクにおいて、その効果と効率を実証し、その「見る」、「聞く」、「読む」能力を示している。
本稿では,SNNを介して高品質のテキスト音声(TTS)を伝送する「textbf{SpikeVoice}」を設計し,SNNの「話す」可能性を探る。
このような生成タスクにSNNを使用する上での大きな障害は、モデルが長期的な依存関係を把握できることにある。
しかし、スパイクニューロンのシリアルな性質は、将来のスパイク時間ステップにおける情報の可視性をもたらし、SNNモデルは、同じ時間ステップ内でのみシーケンス依存をキャプチャするために制限される。
この現象を「部分的時間依存」と呼ぶ。
この問題に対処するために,スパイクボイスにおけるスパイキング時間連続注意STSAを紹介する。
私たちの知る限りでは、SpikeVoiceはSNN分野における最初のTS作業です。
我々は、中国語と英語の両方をカバーする4つの確立されたデータセットを用いて、単一話者と複数話者構成の両方でシナリオを包含する実験を行った。
その結果、SpikeVoiceは、ANNのエネルギー消費がわずか10.5であるArtificial Neural Networks (ANN)に匹敵する結果が得られることを示した。
関連論文リスト
- DPSNN: Spiking Neural Network for Low-Latency Streaming Speech Enhancement [3.409728296852651]
音声強調は、ノイズの多い環境でのコミュニケーションを改善し、自動音声認識、補聴器、電気通信などの分野に影響を与える。
スパイキングニューラルネットワーク(SNN)の形でのニューロモルフィックアルゴリズムには大きな可能性がある。
DPSNN(Dual-Path Spiking Neural Network)と呼ばれる2段階の時間領域ストリーミングSNNフレームワークを開発した。
論文 参考訳(メタデータ) (2024-08-14T09:08:43Z) - Spiking Convolutional Neural Networks for Text Classification [15.10637945787922]
スパイキングニューラルネットワーク(SNN)は、よりエネルギー効率の良い方法でディープニューラルネットワーク(DNN)を実装するための有望な経路を提供する。
本研究では、テキスト分類のためのSNNの「変換+微調整」2段階法を提案し、事前学習した単語埋め込みをスパイクトレインとしてエンコードする簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-27T14:54:27Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - LC-TTFS: Towards Lossless Network Conversion for Spiking Neural Networks
with TTFS Coding [55.64533786293656]
我々は,AIタスクにおいて,ANNのアクティベーション値とSNNのスパイク時間とのほぼ完全なマッピングを実現することができることを示す。
この研究は、電力制約のあるエッジコンピューティングプラットフォームに超低消費電力のTTFSベースのSNNをデプロイする方法を舗装している。
論文 参考訳(メタデータ) (2023-10-23T14:26:16Z) - Co-learning synaptic delays, weights and adaptation in spiking neural
networks [0.0]
スパイキングニューラルネットワーク(SNN)は、固有の時間処理とスパイクベースの計算のため、人工知能ニューラルネットワーク(ANN)と区別する。
スパイクニューロンを用いたデータ処理は、他の2つの生物学的にインスピレーションを受けたニューロンの特徴と接続重みを協調学習することで向上できることを示す。
論文 参考訳(メタデータ) (2023-09-12T09:13:26Z) - Single Channel Speech Enhancement Using U-Net Spiking Neural Networks [2.436681150766912]
音声強調(SE)は、信頼性の高い通信装置や頑健な音声認識システムに不可欠である。
U-Netアーキテクチャに基づくスパイキングニューラルネットワーク(SNN)を用いたSEに対する新しいアプローチを提案する。
SNNは音声などの時間次元のデータ処理に適しており、ニューロモルフィックハードウェア上でのエネルギー効率のよい実装で知られている。
論文 参考訳(メタデータ) (2023-07-26T19:10:29Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Uncovering the Representation of Spiking Neural Networks Trained with
Surrogate Gradient [11.0542573074431]
スパイキングニューラルネットワーク (SNN) は、その生物の楽観性とエネルギー効率のため、次世代ニューラルネットワークの候補として認識されている。
近年、SNNは、代理勾配トレーニングを用いて、画像認識タスクにおいて、ほぼ最先端のパフォーマンスを達成できることを示した。
論文 参考訳(メタデータ) (2023-04-25T19:08:29Z) - A journey in ESN and LSTM visualisations on a language task [77.34726150561087]
我々は,CSL(Cross-Situationnal Learning)タスクでESNとLSTMを訓練した。
その結果, 性能比較, 内部力学解析, 潜伏空間の可視化の3種類が得られた。
論文 参考訳(メタデータ) (2020-12-03T08:32:01Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。