論文の概要: State-of-the-art in speaker recognition
- arxiv url: http://arxiv.org/abs/2202.12705v1
- Date: Wed, 23 Feb 2022 11:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 16:03:52.279080
- Title: State-of-the-art in speaker recognition
- Title(参考訳): 話者認識の現状と課題
- Authors: Marcos Faundez-Zanuy, Enric Monte-Moreno
- Abstract要約: 近年の音声技術の発展により、話者認識を改善する新しいツールが生み出されている。
話者認識は、あらゆる可能性がすでに検討されている技術とは程遠い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in speech technologies have produced new tools that can be
used to improve the performance and flexibility of speaker recognition While
there are few degrees of freedom or alternative methods when using fingerprint
or iris identification techniques, speech offers much more flexibility and
different levels for performing recognition: the system can force the user to
speak in a particular manner, different for each attempt to enter. Also with
voice input the system has other degrees of freedom, such as the use of
knowledge/codes that only the user knows, or dialectical/semantical traits that
are difficult to forge. This paper offers and overview of the state of the art
in speaker recognition, with special emphasis on the pros and contras, and the
current research lines. The current research lines include improved
classification systems, and the use of high level information by means of
probabilistic grammars. In conclusion, speaker recognition is far away from
being a technology where all the possibilities have already been explored.
- Abstract(参考訳): 近年の音声技術の発展により、話者認識の性能と柔軟性を向上させるための新しいツールが開発されているが、指紋や虹彩識別技術を使用する場合、自由度や代替法は少ないが、音声認識の柔軟性と異なるレベルが提供される。
また、音声入力では、ユーザーだけが知っている知識やコードの使用や、鍛えるのが難しい弁証的・概念的特徴など、他の自由度がある。
本稿では, 話者認識における技術の現状について概説し, 特に, プロスとコントラスト, 研究ラインについて概説する。
現在の研究線には、改良された分類システム、確率文法による高レベル情報の利用が含まれる。
結論として、話者認識は、あらゆる可能性がすでに検討されている技術とは程遠い。
関連論文リスト
- Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - The evaluation of a code-switched Sepedi-English automatic speech
recognition system [0.0]
本稿では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。
このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。
しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
論文 参考訳(メタデータ) (2024-03-11T15:11:28Z) - Deep Learning-based Spatio Temporal Facial Feature Visual Speech
Recognition [0.0]
パスワードをしゃべりながら、顔認識と個人特有の時間的顔の特徴的動作を併用する代替認証方式を提案する。
提案されたモデルは、業界標準のMIRACL-VC1データセットでテストしたときに96.1%の精度を達成した。
論文 参考訳(メタデータ) (2023-04-30T18:52:29Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。