論文の概要: TorchDIVA: An Extensible Computational Model of Speech Production built
on an Open-Source Machine Learning Library
- arxiv url: http://arxiv.org/abs/2210.09334v1
- Date: Mon, 17 Oct 2022 18:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 16:07:53.950273
- Title: TorchDIVA: An Extensible Computational Model of Speech Production built
on an Open-Source Machine Learning Library
- Title(参考訳): TorchDIVA: オープンソースの機械学習ライブラリ上に構築された音声生成の拡張可能な計算モデル
- Authors: Sean Kinahan, Julie Liss, Visar Berisha
- Abstract要約: DIVAモデルは音声運動制御の計算モデルであり、音声生成に関与する脳領域のシミュレーションと人間の声道モデルを組み合わせたものである。
このモデルは、現在Matlab Simulinkで実装されているが、音声技術研究の大部分がPythonで行われているため、これは理想的ではない。
PyTorchテンソルを用いたPythonでのDIVAの完全な再構築であるTorchDIVAを提案する。
- 参考スコア(独自算出の注目度): 19.81775668191837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The DIVA model is a computational model of speech motor control that combines
a simulation of the brain regions responsible for speech production with a
model of the human vocal tract. The model is currently implemented in Matlab
Simulink; however, this is less than ideal as most of the development in speech
technology research is done in Python. This means there is a wealth of machine
learning tools which are freely available in the Python ecosystem that cannot
be easily integrated with DIVA. We present TorchDIVA, a full rebuild of DIVA in
Python using PyTorch tensors. DIVA source code was directly translated from
Matlab to Python, and built-in Simulink signal blocks were implemented from
scratch. After implementation, the accuracy of each module was evaluated via
systematic block-by-block validation. The TorchDIVA model is shown to produce
outputs that closely match those of the original DIVA model, with a negligible
difference between the two. We additionally present an example of the
extensibility of TorchDIVA as a research platform. Speech quality enhancement
in TorchDIVA is achieved through an integration with an existing PyTorch
generative vocoder called DiffWave. A modified DiffWave mel-spectrum upsampler
was trained on human speech waveforms and conditioned on the TorchDIVA speech
production. The results indicate improved speech quality metrics in the
DiffWave-enhanced output as compared to the baseline. This enhancement would
have been difficult or impossible to accomplish in the original Matlab
implementation. This proof-of-concept demonstrates the value TorchDIVA will
bring to the research community. Researchers can download the new
implementation at: https://github.com/skinahan/DIVA_PyTorch
- Abstract(参考訳): DIVAモデルは音声運動制御の計算モデルであり、音声生成に関与する脳領域のシミュレーションと人間の声道モデルを組み合わせたものである。
モデルは現在、Matlab Simulinkで実装されているが、Pythonで音声技術の研究が行われているため、これは理想的ではない。
これは、DIVAと簡単に統合できないPythonエコシステムで自由に利用できる、豊富な機械学習ツールが存在することを意味する。
PyTorchテンソルを用いたPythonでのDIVAの完全な再構築であるTorchDIVAを提案する。
DIVAソースコードはMatlabからPythonへ直接変換され、組み込みのSimulinkシグナルブロックはゼロから実装された。
実装後、各モジュールの精度を系統的ブロック・バイ・ブロック検証により評価した。
トーチディバモデルでは、元のディヴァモデルと密接に一致する出力を生成でき、両者の差は無視できる。
また,研究プラットフォームとしてのTorchDIVAの拡張性を示す。
TorchDIVAにおける音声品質の向上は、DiffWaveと呼ばれる既存のPyTorch生成ボコーダとの統合によって達成される。
人間の音声波形を訓練し, トーチディバ音声生成の条件とした。
その結果,DiffWave強調出力の音声品質指標はベースラインと比較して改善した。
この拡張は、オリジナルのMatlab実装で達成することは困難か不可能であった。
この概念実証は、TorchDIVAが研究コミュニティにもたらす価値を示している。
研究者は、新しい実装をhttps://github.com/skinahan/DIVA_PyTorchでダウンロードできる。
関連論文リスト
- Exploring Green AI for Audio Deepfake Detection [21.17957700009653]
ディープニューラルネットワークを利用した最先端のオーディオディープフェイク検出器は、印象的な認識性能を示している。
ディープNLPモデルはCOtextsubscript2の約626klbのCOtextsubscript2を生成する。
そこで本研究では,標準CPUリソースを用いてシームレスにトレーニング可能な,オーディオディープフェイク検出のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T10:54:21Z) - pyvene: A Library for Understanding and Improving PyTorch Models via
Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。
私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文 参考訳(メタデータ) (2024-03-12T16:46:54Z) - Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use
Case [0.0]
我々はPythaeについて紹介する。Pythaeは多種多様なオープンソースPythonライブラリで、生成オートエンコーダモデルの単純で再現性があり、信頼性の高い利用を提供する。
本稿では、下流タスクにおける主な改善点として、19の生成オートエンコーダモデルを紹介し、比較する。
論文 参考訳(メタデータ) (2022-06-16T17:11:41Z) - Design and Implementation of a Quantum Kernel for Natural Language
Processing [0.8702432681310401]
この論文はDisCoCatモデルを利用して、NLPタスクのサポートベクトルマシン(SVM)で使用できる量子ベースのカーネル関数を設計する。
i) 遷移振幅アプローチと(ii) SWAP試験の2つの類似性尺度について検討した。
以前の研究から明らかなモデルは単語埋め込みの訓練に使われ、93.09 pm 0.01$%の精度でテストされた。
論文 参考訳(メタデータ) (2022-05-13T00:45:46Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - pymdp: A Python library for active inference in discrete state spaces [52.85819390191516]
pymdpはPythonでアクティブな推論をシミュレートするオープンソースパッケージである。
我々は,POMDPによるアクティブな推論をシミュレートする,最初のオープンソースパッケージを提供する。
論文 参考訳(メタデータ) (2022-01-11T12:18:44Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - TorchIO: A Python library for efficient loading, preprocessing,
augmentation and patch-based sampling of medical images in deep learning [68.8204255655161]
我々はTorchIOというオープンソースのPythonライブラリを紹介し、ディープラーニングのための医療画像の効率的なロード、前処理、拡張、パッチベースのサンプリングを可能にする。
TorchIOはPyTorchのスタイルに従い、標準的な医用画像処理ライブラリを統合して、ニューラルネットワークのトレーニング中に画像を効率的に処理する。
Pythonを使わずに、画像ファイルに変換を適用できるコマンドラインインターフェースが含まれている。
論文 参考訳(メタデータ) (2020-03-09T13:36:16Z) - DFTpy: An efficient and object-oriented platform for orbital-free DFT
simulations [55.41644538483948]
本稿では、Python 3で完全に書かれたOFDFTを実装したオープンソースソフトウェアであるDFTpyを紹介する。
本稿では,1CPUで計算したアルミニウムの100万原子系の電子構造について紹介する。
DFTpyはMITライセンスでリリースされている。
論文 参考訳(メタデータ) (2020-02-07T19:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。