論文の概要: Speech segmentation using multilevel hybrid filters
- arxiv url: http://arxiv.org/abs/2203.01819v1
- Date: Thu, 24 Feb 2022 00:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 13:14:01.922189
- Title: Speech segmentation using multilevel hybrid filters
- Title(参考訳): 多レベルハイブリッドフィルタを用いた音声セグメンテーション
- Authors: Marcos Faundez-Zanuy, Francesc Vallverdu-Bayes
- Abstract要約: マルチレベルハイブリッド(平均/最小)フィルタ(MHF)に基づく音声分割の新しい手法を提案する。
提案手法はスペクトル変化に基づいて,音声を均質な音響セグメントに分割することを目的としている。
このアルゴリズムは、音声合成された音声コーダに使われ、良好な結果が得られている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A novel approach for speech segmentation is proposed, based on Multilevel
Hybrid (mean/min) Filters (MHF) with the following features: An accurate
transition location. Good performance in noisy environments (gaussian and
impulsive noise). The proposed method is based on spectral changes, with the
goal of segmenting the voice into homogeneous acoustic segments. This algorithm
is being used for phoneticallysegmented speech coder, with successful results.
- Abstract(参考訳): 多レベルハイブリッド(mean/min)フィルタ(mhf)に基づく音声セグメンテーションのための新しい手法を提案する。
雑音環境(ガウス音・衝動音)における良い性能
提案手法はスペクトル変化に基づいて,音声を均質な音響セグメントに分割することを目的としている。
このアルゴリズムは音声合成音声符号化に用いられており、成功している。
関連論文リスト
- MaskCycleGAN-based Whisper to Normal Speech Conversion [0.0]
本稿では,通常の音声への変換のためのMaskCycleGANアプローチを提案する。
マスクパラメータをチューニングし,音声活動検出器で信号の事前処理を行うことで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-27T06:07:18Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Delving Deeper into Anti-aliasing in ConvNets [42.82751522973616]
エイリアシング(Aliasing)は、高周波信号がサンプリング後に完全に異なる信号に縮退する現象である。
空間的位置とチャネル群ごとに異なるフィルタ重みを予測できる適応型コンテンツ対応低域フィルタ層を提案する。
論文 参考訳(メタデータ) (2020-08-21T17:56:04Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。