Fugu-MT 論文翻訳(概要): TorchDIVA: An Extensible Computational Model of Speech Production built on an Open-Source Machine Learning Library

論文の概要: TorchDIVA: An Extensible Computational Model of Speech Production built on an Open-Source Machine Learning Library

arxiv url: http://arxiv.org/abs/2210.09334v1
Date: Mon, 17 Oct 2022 18:00:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 16:07:53.950273
Title: TorchDIVA: An Extensible Computational Model of Speech Production built on an Open-Source Machine Learning Library
Title（参考訳）: TorchDIVA: オープンソースの機械学習ライブラリ上に構築された音声生成の拡張可能な計算モデル
Authors: Sean Kinahan, Julie Liss, Visar Berisha
Abstract要約: DIVAモデルは音声運動制御の計算モデルであり、音声生成に関与する脳領域のシミュレーションと人間の声道モデルを組み合わせたものである。このモデルは、現在Matlab Simulinkで実装されているが、音声技術研究の大部分がPythonで行われているため、これは理想的ではない。 PyTorchテンソルを用いたPythonでのDIVAの完全な再構築であるTorchDIVAを提案する。
参考スコア（独自算出の注目度）: 19.81775668191837
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The DIVA model is a computational model of speech motor control that combines a simulation of the brain regions responsible for speech production with a model of the human vocal tract. The model is currently implemented in Matlab Simulink; however, this is less than ideal as most of the development in speech technology research is done in Python. This means there is a wealth of machine learning tools which are freely available in the Python ecosystem that cannot be easily integrated with DIVA. We present TorchDIVA, a full rebuild of DIVA in Python using PyTorch tensors. DIVA source code was directly translated from Matlab to Python, and built-in Simulink signal blocks were implemented from scratch. After implementation, the accuracy of each module was evaluated via systematic block-by-block validation. The TorchDIVA model is shown to produce outputs that closely match those of the original DIVA model, with a negligible difference between the two. We additionally present an example of the extensibility of TorchDIVA as a research platform. Speech quality enhancement in TorchDIVA is achieved through an integration with an existing PyTorch generative vocoder called DiffWave. A modified DiffWave mel-spectrum upsampler was trained on human speech waveforms and conditioned on the TorchDIVA speech production. The results indicate improved speech quality metrics in the DiffWave-enhanced output as compared to the baseline. This enhancement would have been difficult or impossible to accomplish in the original Matlab implementation. This proof-of-concept demonstrates the value TorchDIVA will bring to the research community. Researchers can download the new implementation at: https://github.com/skinahan/DIVA_PyTorch
Abstract（参考訳）: DIVAモデルは音声運動制御の計算モデルであり、音声生成に関与する脳領域のシミュレーションと人間の声道モデルを組み合わせたものである。モデルは現在、Matlab Simulinkで実装されているが、Pythonで音声技術の研究が行われているため、これは理想的ではない。これは、DIVAと簡単に統合できないPythonエコシステムで自由に利用できる、豊富な機械学習ツールが存在することを意味する。 PyTorchテンソルを用いたPythonでのDIVAの完全な再構築であるTorchDIVAを提案する。 DIVAソースコードはMatlabからPythonへ直接変換され、組み込みのSimulinkシグナルブロックはゼロから実装された。実装後、各モジュールの精度を系統的ブロック・バイ・ブロック検証により評価した。トーチディバモデルでは、元のディヴァモデルと密接に一致する出力を生成でき、両者の差は無視できる。また,研究プラットフォームとしてのTorchDIVAの拡張性を示す。 TorchDIVAにおける音声品質の向上は、DiffWaveと呼ばれる既存のPyTorch生成ボコーダとの統合によって達成される。人間の音声波形を訓練し, トーチディバ音声生成の条件とした。その結果,DiffWave強調出力の音声品質指標はベースラインと比較して改善した。この拡張は、オリジナルのMatlab実装で達成することは困難か不可能であった。この概念実証は、TorchDIVAが研究コミュニティにもたらす価値を示している。研究者は、新しい実装をhttps://github.com/skinahan/DIVA_PyTorchでダウンロードできる。

関連論文リスト

TYrPPG: Uncomplicated and Enhanced Learning Capability rPPG for Remote Heart Rate Estimation [51.56484100374058]
本稿では,効率的なRGBビデオのための革新的なビデオ理解ブロック(GVB)を提案する。 Mamの構造に基づいて、2D-CNNと3D-CNNを統合し、分析のためのビデオ理解を強化する。実験により、我々のTYrは一般的に使用されるデータセットで最先端のパフォーマンスを達成できることが示された。
論文参考訳（メタデータ） (2025-11-08T03:46:58Z)
ByzFL: Research Framework for Robust Federated Learning [11.23722364748134]
提案するByzFLは,ベンチマーク学習(FL)アルゴリズムを開発するためのオープンソースのライブラリである。 ByzFLは、最先端の堅牢なアグリゲータの実装を含む統一されたフレームワークを提供する。このライブラリは、単一ベースの構成ファイルを通じて体系的な実験を可能にし、結果を視覚化するための組み込みユーティリティを含んでいる。
論文参考訳（メタデータ） (2025-05-30T17:08:15Z)
Running Conventional Automatic Speech Recognition on Memristor Hardware: A Simulated Approach [18.47703842449581]
数百万のパラメータを持つMLシステムがmemristorハードウェア上でどのように振る舞うかを示す。我々は,3ビット重み精度を用いて線形演算を行う場合,単語誤り率の相対劣化を25%に制限する。
論文参考訳（メタデータ） (2025-05-30T15:42:41Z)
Exploring Green AI for Audio Deepfake Detection [21.17957700009653]
ディープニューラルネットワークを利用した最先端のオーディオディープフェイク検出器は、印象的な認識性能を示している。ディープNLPモデルはCOtextsubscript2の約626klbのCOtextsubscript2を生成する。そこで本研究では,標準CPUリソースを用いてシームレスにトレーニング可能な,オーディオディープフェイク検出のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T10:54:21Z)
pyvene: A Library for Understanding and Improving PyTorch Models via Interventions [79.72930339711478]
$textbfpyvene$は、さまざまなPyTorchモジュールに対するカスタマイズ可能な介入をサポートするオープンソースライブラリである。私たちは、$textbfpyvene$が、ニューラルモデルへの介入を実行し、他のモデルとインターバルされたモデルを共有するための統一されたフレームワークを提供する方法を示します。
論文参考訳（メタデータ） (2024-03-12T16:46:54Z)
Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case [0.0]
我々はPythaeについて紹介する。Pythaeは多種多様なオープンソースPythonライブラリで、生成オートエンコーダモデルの単純で再現性があり、信頼性の高い利用を提供する。本稿では、下流タスクにおける主な改善点として、19の生成オートエンコーダモデルを紹介し、比較する。
論文参考訳（メタデータ） (2022-06-16T17:11:41Z)
Design and Implementation of a Quantum Kernel for Natural Language Processing [0.8702432681310401]
この論文はDisCoCatモデルを利用して、NLPタスクのサポートベクトルマシン(SVM)で使用できる量子ベースのカーネル関数を設計する。 i) 遷移振幅アプローチと(ii) SWAP試験の2つの類似性尺度について検討した。以前の研究から明らかなモデルは単語埋め込みの訓練に使われ、93.09 pm 0.01$%の精度でテストされた。
論文参考訳（メタデータ） (2022-05-13T00:45:46Z)
Self-supervised Learning with Random-projection Quantizer for Speech Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文参考訳（メタデータ） (2022-02-03T21:29:04Z)
PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。 PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。 PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文参考訳（メタデータ） (2022-01-12T07:32:36Z)
pymdp: A Python library for active inference in discrete state spaces [52.85819390191516]
pymdpはPythonでアクティブな推論をシミュレートするオープンソースパッケージである。我々は,POMDPによるアクティブな推論をシミュレートする,最初のオープンソースパッケージを提供する。
論文参考訳（メタデータ） (2022-01-11T12:18:44Z)
Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文参考訳（メタデータ） (2020-11-26T06:28:04Z)
TorchIO: A Python library for efficient loading, preprocessing, augmentation and patch-based sampling of medical images in deep learning [68.8204255655161]
我々はTorchIOというオープンソースのPythonライブラリを紹介し、ディープラーニングのための医療画像の効率的なロード、前処理、拡張、パッチベースのサンプリングを可能にする。 TorchIOはPyTorchのスタイルに従い、標準的な医用画像処理ライブラリを統合して、ニューラルネットワークのトレーニング中に画像を効率的に処理する。 Pythonを使わずに、画像ファイルに変換を適用できるコマンドラインインターフェースが含まれている。
論文参考訳（メタデータ） (2020-03-09T13:36:16Z)
DFTpy: An efficient and object-oriented platform for orbital-free DFT simulations [55.41644538483948]
本稿では、Python 3で完全に書かれたOFDFTを実装したオープンソースソフトウェアであるDFTpyを紹介する。本稿では,1CPUで計算したアルミニウムの100万原子系の電子構造について紹介する。 DFTpyはMITライセンスでリリースされている。
論文参考訳（メタデータ） (2020-02-07T19:07:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。