論文の概要: Few Shot Text-Independent speaker verification using 3D-CNN
- arxiv url: http://arxiv.org/abs/2008.11088v1
- Date: Tue, 25 Aug 2020 15:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 04:41:47.819763
- Title: Few Shot Text-Independent speaker verification using 3D-CNN
- Title(参考訳): 3D-CNNを用いた少数ショットテキスト独立話者検証
- Authors: Prateek Mishra
- Abstract要約: 我々は,ごく少数の学習データを用いて話者の身元を検証するための新しい手法を提案してきた。
VoxCeleb1データセットで行った実験によると、非常に少ないデータでトレーニングしても、提案されたモデルの精度は、テキストに依存しない話者検証において、アートモデルの状態に近い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial recognition system is one of the major successes of Artificial
intelligence and has been used a lot over the last years. But, images are not
the only biometric present: audio is another possible biometric that can be
used as an alternative to the existing recognition systems. However, the
text-independent audio data is not always available for tasks like speaker
verification and also no work has been done in the past for text-independent
speaker verification assuming very little training data. Therefore, In this
paper, we have proposed a novel method to verify the identity of the claimed
speaker using very few training data. To achieve this we are using a Siamese
neural network with center loss and speaker bias loss. Experiments conducted on
the VoxCeleb1 dataset show that the proposed model accuracy even on training
with very few data is near to the state of the art model on text-independent
speaker verification
- Abstract(参考訳): 顔認識システムは、人工知能の主要な成功の1つであり、ここ数年で多くの使われてきた。
しかし、画像だけが生体認証の存在ではない。オーディオは、既存の認識システムの代替として使用できるもう1つの生体認証である。
しかし、話者検証のようなタスクにはテキスト非依存の音声データが常に利用できる訳ではなく、訓練データが少ないと仮定してテキスト非依存の話者検証は過去にも行われていない。
そこで,本稿では,極めて少ない訓練データを用いて,主張話者の同一性を検証する新しい手法を提案する。
これを実現するために私たちは、中心的損失と話者バイアス損失を持つシャムニューラルネットを用いています。
VoxCeleb1データセットを用いて行った実験によると、非常に少ないデータでトレーニングしても、提案されたモデルの精度はテキスト非依存話者検証におけるアートモデルの状態に近い。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition [5.1229352884025845]
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用して,話者の性別を復元できることを示す。
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用するだけで,話者の性別を復元することができることを示す。
論文 参考訳(メタデータ) (2021-11-07T22:17:52Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker
Adaptation and Pronunciation Enhancement [1.7704011486040843]
我々は、20分間のデータのみを用いて、同一または異なる言語から、新しい話者のための既存のTSモデルを転送可能であることを示す。
まず、言語に依存しない入力を持つ基本多言語タコトロンを導入し、話者適応の異なるシナリオに対してトランスファー学習がどのように行われるかを実証する。
論文 参考訳(メタデータ) (2020-11-12T14:05:34Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。