論文の概要: A Lightweight Speaker Recognition System Using Timbre Properties
- arxiv url: http://arxiv.org/abs/2010.05502v2
- Date: Tue, 13 Oct 2020 05:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 06:23:36.424749
- Title: A Lightweight Speaker Recognition System Using Timbre Properties
- Title(参考訳): 音色特性を利用した軽量話者認識システム
- Authors: Abu Quwsar Ohi, M. F. Mridha, Md. Abdul Hamid, Muhammad Mostafa
Monowar, Dongsu Lee, Jinsul Kim
- Abstract要約: ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者認証と識別タスクの両方に使用される新機能も導入されている。
このプロトタイプは7つの最も活発に探索された特性、ブーム性、明るさ、深さ、硬さ、音色、鋭さ、暖かさを使っている。
- 参考スコア(独自算出の注目度): 0.5708902722746041
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speaker recognition is an active research area that contains notable usage in
biometric security and authentication system. Currently, there exist many
well-performing models in the speaker recognition domain. However, most of the
advanced models implement deep learning that requires GPU support for real-time
speech recognition, and it is not suitable for low-end devices. In this paper,
we propose a lightweight text-independent speaker recognition model based on
random forest classifier. It also introduces new features that are used for
both speaker verification and identification tasks. The proposed model uses
human speech based timbral properties as features that are classified using
random forest. Timbre refers to the very basic properties of sound that allow
listeners to discriminate among them. The prototype uses seven most actively
searched timbre properties, boominess, brightness, depth, hardness, roughness,
sharpness, and warmth as features of our speaker recognition model. The
experiment is carried out on speaker verification and speaker identification
tasks and shows the achievements and drawbacks of the proposed model. In the
speaker identification phase, it achieves a maximum accuracy of 78%. On the
contrary, in the speaker verification phase, the model maintains an accuracy of
80% having an equal error rate (ERR) of 0.24.
- Abstract(参考訳): 話者認識は、生体認証と認証システムにおいて顕著な用途を含む活発な研究領域である。
現在、話者認識領域には高性能なモデルが多数存在する。
しかし、ほとんどの高度なモデルは、リアルタイム音声認識にgpuサポートを必要とするディープラーニングを実装しており、ローエンドデバイスには適していない。
本稿では,ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者確認と識別タスクの両方に使用される新機能も導入している。
提案モデルは,ランダムフォレストによって分類される特徴として,人間の発話に基づく音節特性を用いる。
ティンブレ(Timbre)は、聴取者同士の区別を可能にする、音の非常に基本的な特性を指す。
このプロトタイプは7つの音色特性、発色、明るさ、深さ、硬度、粗さ、鋭さ、温かさを話者認識モデルの特徴として活用しています。
この実験は話者検証と話者識別タスクに基づいて行われ、提案モデルの有効性と欠点を示す。
話者識別フェーズでは、最大精度が78%に達する。
反対に、話者検証フェーズでは、同値エラー率(ERR)が0.24である80%の精度を維持する。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification [0.0]
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。
提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
論文 参考訳(メタデータ) (2023-08-22T07:34:07Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Retrieving Speaker Information from Personalized Acoustic Models for
Speech Recognition [5.1229352884025845]
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用して,話者の性別を復元できることを示す。
本稿では,この話者に局所的に適応したニューラル音響モデルの重み行列変化を利用するだけで,話者の性別を復元することができることを示す。
論文 参考訳(メタデータ) (2021-11-07T22:17:52Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。