論文の概要: Maximum Phase Modeling for Sparse Linear Prediction of Speech
- arxiv url: http://arxiv.org/abs/2006.04138v1
- Date: Sun, 7 Jun 2020 12:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:32:27.068446
- Title: Maximum Phase Modeling for Sparse Linear Prediction of Speech
- Title(参考訳): 音声のスパース線形予測のための最大位相モデル
- Authors: Thomas Drugman
- Abstract要約: 本研究の目的は,音声の最大位相寄与のモデル化を取り入れた新しい手法を提案することである。
提案手法は,LP残差信号の空間性を大幅に向上させるとともに,2つの図示的応用に有効であることを示す。
- 参考スコア(独自算出の注目度): 9.350099146904869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear prediction (LP) is an ubiquitous analysis method in speech processing.
Various studies have focused on sparse LP algorithms by introducing sparsity
constraints into the LP framework. Sparse LP has been shown to be effective in
several issues related to speech modeling and coding. However, all existing
approaches assume the speech signal to be minimum-phase. Because speech is
known to be mixed-phase, the resulting residual signal contains a persistent
maximum-phase component. The aim of this paper is to propose a novel technique
which incorporates a modeling of the maximum-phase contribution of speech, and
can be applied to any filter representation. The proposed method is shown to
significantly increase the sparsity of the LP residual signal and to be
effective in two illustrative applications: speech polarity detection and
excitation modeling.
- Abstract(参考訳): 線形予測 (LP) は音声処理におけるユビキタス解析手法である。
LPフレームワークにスパース制約を導入することで、スパースLPアルゴリズムに様々な研究が焦点を当てている。
スパースLPは、音声モデリングやコーディングに関連するいくつかの問題に有効であることが示されている。
しかし、既存の全てのアプローチは音声信号が最小位相であると仮定している。
音声は混合位相であることが知られているため、残差信号は持続的な最大位相成分を含む。
本研究の目的は,音声の最大位相寄与のモデル化を取り入れ,任意のフィルタ表現に適用可能な新しい手法を提案することである。
提案手法は,lp残差信号のスパース性を大幅に向上させ,音声の極性検出と励磁モデリングの2つの応用に有効であることを示した。
関連論文リスト
- YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - BLSP-KD: Bootstrapping Language-Speech Pre-training via Knowledge Distillation [18.329192763760034]
BLSP-KD(Bootstrapping Language-Speech Pretraining)を知識蒸留により導入する。
音声入力とテキスト入力に対するLLMの次点予測分布のばらつきを最小化することで、音声テキストアライメントを最適化する。
また、音声を1対1でテキストトークンに対応するトークンに分割し、きめ細かいアライメントを可能にする。
論文 参考訳(メタデータ) (2024-05-29T12:32:08Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。