論文の概要: End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands
- arxiv url: http://arxiv.org/abs/2009.10283v1
- Date: Tue, 22 Sep 2020 02:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 23:26:23.695514
- Title: End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands
- Title(参考訳): 義手のための音声2次元特徴トラジェクトリのエンドツーエンド学習
- Authors: Mohsen Jafarzadeh, Yonas Tadesse
- Abstract要約: 本稿では,音声2D特徴を直接義手用軌跡にマッピングするエンドツーエンド畳み込みニューラルネットワーク(CNN)を提案する。
ネットワークはPythonで書かれており、対応するバックエンドを持つKerasライブラリがある。
我々はNVIDIA Jetson TX2開発キット用にCNNを最適化した。
- 参考スコア(独自算出の注目度): 0.48951183832371004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech is one of the most common forms of communication in humans. Speech
commands are essential parts of multimodal controlling of prosthetic hands. In
the past decades, researchers used automatic speech recognition systems for
controlling prosthetic hands by using speech commands. Automatic speech
recognition systems learn how to map human speech to text. Then, they used
natural language processing or a look-up table to map the estimated text to a
trajectory. However, the performance of conventional speech-controlled
prosthetic hands is still unsatisfactory. Recent advancements in
general-purpose graphics processing units (GPGPUs) enable intelligent devices
to run deep neural networks in real-time. Thus, architectures of intelligent
systems have rapidly transformed from the paradigm of composite subsystems
optimization to the paradigm of end-to-end optimization. In this paper, we
propose an end-to-end convolutional neural network (CNN) that maps speech 2D
features directly to trajectories for prosthetic hands. The proposed
convolutional neural network is lightweight, and thus it runs in real-time in
an embedded GPGPU. The proposed method can use any type of speech 2D feature
that has local correlations in each dimension such as spectrogram, MFCC, or
PNCC. We omit the speech to text step in controlling the prosthetic hand in
this paper. The network is written in Python with Keras library that has a
TensorFlow backend. We optimized the CNN for NVIDIA Jetson TX2 developer kit.
Our experiment on this CNN demonstrates a root-mean-square error of 0.119 and
20ms running time to produce trajectory outputs corresponding to the voice
input data. To achieve a lower error in real-time, we can optimize a similar
CNN for a more powerful embedded GPGPU such as NVIDIA AGX Xavier.
- Abstract(参考訳): 音声は人間にとって最も一般的なコミュニケーションの1つである。
音声コマンドは人工手のマルチモーダル制御の不可欠な部分である。
過去数十年間、研究者は自動音声認識システムを使用して、音声コマンドを使用して義手を制御する。
音声認識システムは、人間の音声をテキストにマッピングする方法を学ぶ。
そして、自然言語処理やルックアップテーブルを使用して、推定されたテキストを軌跡にマッピングした。
しかし、従来の音声制御義手の性能はまだ不十分である。
汎用グラフィックス処理ユニット(GPGPU)の最近の進歩は、インテリジェントデバイスがディープニューラルネットワークをリアルタイムで実行できるようにする。
このように、インテリジェントシステムのアーキテクチャは、複合サブシステム最適化のパラダイムからエンドツーエンド最適化のパラダイムへと急速に変化している。
本稿では,音声の2次元特徴を義手のための軌跡に直接マッピングするエンドツーエンド畳み込みニューラルネットワーク(cnn)を提案する。
提案する畳み込みニューラルネットワークは軽量であるため,組み込みGPGPUでリアルタイムに動作する。
提案手法では, スペクトログラム, mfcc, pnccなどの各次元の局所相関を持つ音声2次元特徴量を用いることができる。
本論文では, 義手制御において, 音声をテキストステップに省略する。
ネットワークは、TensorFlowバックエンドを持つKerasライブラリでPythonで記述されている。
我々はNVIDIA Jetson TX2開発キット用にCNNを最適化した。
このCNN実験は,音声入力データに対応する軌道出力を生成するために,0.119秒と20m秒のルート平均二乗誤差を示す。
リアルタイムに低いエラーを実現するため、NVIDIA AGX Xavierのようなより強力な組み込みGPGPUに対して、同様のCNNを最適化することができる。
関連論文リスト
- EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文 参考訳(メタデータ) (2022-03-31T07:25:11Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - 3D Convolutional Neural Networks for Ultrasound-Based Silent Speech
Interfaces [0.0]
silent speech interface (ssi) は、舌の超音波映像のような調音運動の記録から音声信号を再構成することを目的としている。
ディープニューラルネットワークはこのタスクで最も成功した技術です。
これの1つのオプションは、2D畳み込みニューラルネットワーク(CNNs)と組み合わせて、長期記憶ネットワーク(LSTM)などの繰り返し神経構造を適用することです。
論文 参考訳(メタデータ) (2021-04-23T10:56:34Z) - Applying GPGPU to Recurrent Neural Network Language Model based Fast
Network Search in the Real-Time LVCSR [5.0555627833288]
リカレントニューラルネットワーク言語モデル (RNNLM) は音声認識の様々な分野で使われ始めている。
RNNLMの計算複雑性は、RNNLMをリアルタイムな大語彙連続音声認識に適用する上でハードルとなっている。
論文 参考訳(メタデータ) (2020-07-23T05:15:14Z) - An End-to-End Visual-Audio Attention Network for Emotion Recognition in
User-Generated Videos [64.91614454412257]
畳み込みニューラルネットワーク(CNN)に基づくエンドツーエンドの映像感情認識を提案する。
具体的には,空間的,チャネル的,時間的注意を視覚的に3D CNNに統合し,時間的注意をオーディオ2D CNNに組み込む新しいアーキテクチャである,深層ビジュアル・オーディオ・アテンション・ネットワーク(VAANet)を開発した。
論文 参考訳(メタデータ) (2020-02-12T15:33:59Z) - Neural Human Video Rendering by Learning Dynamic Textures and
Rendering-to-Video Translation [99.64565200170897]
本研究では,2次元スクリーン空間に人体を埋め込むことで,時間的コヒーレントな微細な細部を学習することで,人間の映像合成手法を提案する。
我々は,人間の再現やモノクロ映像からの新たなビュー合成などのアプローチの適用例を示し,質的にも定量的にも,芸術の状態を著しく改善した。
論文 参考訳(メタデータ) (2020-01-14T18:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。