論文の概要: Shennong: a Python toolbox for audio speech features extraction
- arxiv url: http://arxiv.org/abs/2112.05555v1
- Date: Fri, 10 Dec 2021 14:08:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 15:28:14.017611
- Title: Shennong: a Python toolbox for audio speech features extraction
- Title(参考訳): Shennong: 音声音声特徴抽出のためのPythonツールボックス
- Authors: Mathieu Bernard and Maxime Poli and Julien Karadayi and Emmanuel
Dupoux
- Abstract要約: ShennongはPythonのツールボックスであり、音声特徴抽出のためのコマンドラインユーティリティである。
スペクトル時間フィルタ、事前訓練されたニューラルネットワーク、ピッチ推定器、話者正規化方法など、幅広い確立された最先端技術アルゴリズムを実装している。
本稿では,携帯電話の識別タスクにおける音声特徴量の比較,訓練に使用する音声時間関数としての声道長正規化モデルの解析,様々な雑音条件下でのピッチ推定アルゴリズムの比較の3つの応用について述べる。
- 参考スコア(独自算出の注目度): 15.816237141746562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Shennong, a Python toolbox and command-line utility for speech
features extraction. It implements a wide range of well-established state of
art algorithms including spectro-temporal filters such as Mel-Frequency
Cepstral Filterbanks or Predictive Linear Filters, pre-trained neural networks,
pitch estimators as well as speaker normalization methods and post-processing
algorithms. Shennong is an open source, easy-to-use, reliable and extensible
framework. The use of Python makes the integration to others speech modeling
and machine learning tools easy. It aims to replace or complement several
heterogeneous software, such as Kaldi or Praat. After describing the Shennong
software architecture, its core components and implemented algorithms, this
paper illustrates its use on three applications: a comparison of speech
features performances on a phones discrimination task, an analysis of a Vocal
Tract Length Normalization model as a function of the speech duration used for
training and a comparison of pitch estimation algorithms under various noise
conditions.
- Abstract(参考訳): 音声特徴抽出のためのPythonツールボックスとコマンドラインユーティリティであるShennongを紹介する。
Mel-Frequency Cepstral FilterbanksやPredictive Linear Filters、事前トレーニングされたニューラルネットワーク、ピッチ推定器、話者正規化方法や後処理アルゴリズムなどの分光時間フィルタを含む、幅広い技術アルゴリズムの確立された状態を実装している。
Shennongはオープンソースの、使いやすく、信頼性があり、拡張可能なフレームワークだ。
Pythonを使うことで、他の言語モデリングや機械学習ツールとの統合が簡単になる。
KaldiやPraatといった異種ソフトウェアを置き換えたり補完することを目的としている。
本論文は,shennong software architecture,そのコアコンポーネント,実装アルゴリズムについて記述した後,その応用例について述べる。 電話識別タスクにおける性能比較,訓練に使用する発話継続時間の関数としての声道長正規化モデルの解析,様々な騒音条件におけるピッチ推定アルゴリズムの比較。
関連論文リスト
- Prak: An automatic phonetic alignment tool for Czech [0.0]
無料のオープンソースツールはチェコ語のテキストから電話シーケンスを生成し、音声で時間調整する。
チェコ語発音生成器は、言語の論理をキャプチャする単純なルールベースのブロックで構成されている。
論文 参考訳(メタデータ) (2023-04-17T16:51:24Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - QuaPy: A Python-Based Framework for Quantification [76.22817970624875]
QuaPyは、定量化を行うためのオープンソースのフレームワークである(例えば、教師付き精度推定)。
Pythonで書かれており、pip経由でインストールできる。
論文 参考訳(メタデータ) (2021-06-18T13:57:11Z) - SpeechBrain: A General-Purpose Speech Toolkit [73.0404642815335]
SpeechBrainはオープンソースでオールインワンの音声ツールキットである。
ニューラル音声処理技術の研究開発を促進するために設計された。
幅広い音声ベンチマークにおいて、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-08T18:22:56Z) - Learning Feature Weights using Reward Modeling for Denoising Parallel
Corpora [36.292020779233056]
この研究は、複数の文レベルの特徴の重みを学習する代替アプローチを提示する。
この手法をエストニア語英語のパラクローリングコーパスを用いたニューラル機械翻訳(NMT)システムの構築に適用する。
本手法の異なる種類の雑音に対する感度を分析し,学習重み付けが他の言語対に一般化するかどうかを検討する。
論文 参考訳(メタデータ) (2021-03-11T21:45:45Z) - WaDeNet: Wavelet Decomposition based CNN for Speech Processing [0.0]
WaDeNetは、モバイル音声処理のためのエンドツーエンドモデルである。
WaDeNetは、アーキテクチャ内に音声信号のウェーブレット分解を埋め込む。
論文 参考訳(メタデータ) (2020-11-11T06:43:03Z) - Language Through a Prism: A Spectral Approach for Multiscale Language
Representations [30.224517199646993]
信号処理は、スケールをまたいだ構造を分離するための自然な枠組みを提供することを示す。
入力を通したニューロンの活性化にスペクトルフィルタを適用し、音声タグ付けの一部でよく機能するフィルタ埋め込みを生成する。
また、スペクトルフィルタを用いて異なるニューロンを拘束し、異なるスケールで構造をモデル化する訓練モデルのためのプリズム層を提案する。
論文 参考訳(メタデータ) (2020-11-09T23:17:43Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。