論文の概要: On the relevance of bandwidth extension for speaker identification
- arxiv url: http://arxiv.org/abs/2202.13865v1
- Date: Thu, 24 Feb 2022 09:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:21:26.589176
- Title: On the relevance of bandwidth extension for speaker identification
- Title(参考訳): 話者識別のための帯域拡張の妥当性について
- Authors: Marcos Faundez-Zanuy, Mattias Nilsson, W. Bastiaan Kleijn
- Abstract要約: 我々は、電話帯域([300, 3400] Hz)から全帯域([100, 8000] Hz)に拡張された帯域幅の2つの異なる音声信号データベースを作成する。
我々は異なるパラメータ化の評価を行い、MELCEPSTパラメータ化はいくつかの状況において帯域拡張アルゴリズムを活用できることを見出した。
- 参考スコア(独自算出の注目度): 19.81737104742369
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we discuss the relevance of bandwidth extension for speaker
identification tasks. Mainly we want to study if it is possible to recognize
voices that have been bandwith extended. For this purpose, we created two
different databases (microphonic and ISDN) of speech signals that were
bandwidth extended from telephone bandwidth ([300, 3400] Hz) to full bandwidth
([100, 8000] Hz). We have evaluated different parameterizations, and we have
found that the MELCEPST parameterization can take advantage of the bandwidth
extension algorithms in several situations.
- Abstract(参考訳): 本稿では,話者識別タスクにおける帯域幅拡張の関連について論じる。
主に、拡張された音声を認識できるかどうかを研究したい。
この目的のために、電話帯域幅([300, 3400]hz)からフル帯域幅([100, 8000]hz)まで拡張された帯域幅を持つ2種類の音声信号データベース(マイクロフォニックおよびisdn)を作成した。
我々は異なるパラメータ化の評価を行い、MELCEPSTパラメータ化はいくつかの状況において帯域拡張アルゴリズムを活用できることを見出した。
関連論文リスト
- Speech Bandwidth Expansion Via High Fidelity Generative Adversarial Networks [0.0]
音声帯域拡張は,デジタルアプリケーションにおける音質と知覚性の向上に不可欠である。
本稿では,カスケードシステムとは異なり,高忠実性生成対向ネットワークを用いた新しい手法を提案する。
提案手法は,様々な帯域幅のアップサンプリング比を,音声帯域幅拡張アプリケーションに特化して設計された単一統一モデルに統合する。
論文 参考訳(メタデータ) (2024-07-26T07:54:47Z) - Robust Channel Learning for Large-Scale Radio Speaker Verification [30.332141166518287]
本稿では,現在の話者検証パイプラインの堅牢性を高めるために,Channel Robust Speaker Learning (CRSL) フレームワークを提案する。
本フレームワークでは,無線音声データセットの帯域幅変動を緩和する拡張モジュールを導入する。
また、大規模なトレーニング時間と大量のデータの必要性を低減できる効率的な微調整手法を提案する。
論文 参考訳(メタデータ) (2024-06-16T14:17:57Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Training speaker recognition systems with limited data [2.3148470932285665]
この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。
一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。
トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
論文 参考訳(メタデータ) (2022-03-28T12:41:41Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - A Unified Deep Speaker Embedding Framework for Mixed-Bandwidth Speech
Data [19.896231193903297]
本稿では,異なるサンプリングレートで音声データをモデル化するための統合型ディープ話者埋め込みフレームワークを提案する。
狭帯域分光図を広帯域分光図のサブイメージとして考慮し、画像分類法により混合帯域データの連成モデリング問題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T13:45:38Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。