論文の概要: Speaker discrimination in humans and machines: Effects of speaking style
variability
- arxiv url: http://arxiv.org/abs/2008.03617v1
- Date: Sat, 8 Aug 2020 22:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:32:02.665380
- Title: Speaker discrimination in humans and machines: Effects of speaking style
variability
- Title(参考訳): 人間と機械における話者弁別:発話スタイル変化の影響
- Authors: Amber Afshan, Jody Kreiman, and Abeer Alwan
- Abstract要約: 我々は、読み上げ音声とカジュアル会話における人間と機械の話者識別性能を比較した。
その結果,人間も機械もスタイル整合刺激により良好な性能を示した。
いずれの条件においても, 機械的結果と人間の反応を融合させることで, 単独よりも改善が見られた。
- 参考スコア(独自算出の注目度): 18.055803318508318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does speaking style variation affect humans' ability to distinguish
individuals from their voices? How do humans compare with automatic systems
designed to discriminate between voices? In this paper, we attempt to answer
these questions by comparing human and machine speaker discrimination
performance for read speech versus casual conversations. Thirty listeners were
asked to perform a same versus different speaker task. Their performance was
compared to a state-of-the-art x-vector/PLDA-based automatic speaker
verification system. Results showed that both humans and machines performed
better with style-matched stimuli, and human performance was better when
listeners were native speakers of American English. Native listeners performed
better than machines in the style-matched conditions (EERs of 6.96% versus
14.35% for read speech, and 15.12% versus 19.87%, for conversations), but for
style-mismatched conditions, there was no significant difference between native
listeners and machines. In all conditions, fusing human responses with machine
results showed improvements compared to each alone, suggesting that humans and
machines have different approaches to speaker discrimination tasks. Differences
in the approaches were further confirmed by examining results for individual
speakers which showed that the perception of distinct and confused speakers
differed between human listeners and machines.
- Abstract(参考訳): 発話スタイルの変化は、声と個人を区別する人間の能力に影響を与えるか?
人間は、声を区別するために設計された自動システムとどのように比較しますか?
本稿では,読み上げ音声とカジュアルな会話における人間と機械の話者識別性能を比較して,これらの疑問に答えようとする。
30人のリスナーが、同じ対異なる話者タスクを実行するように求められた。
その性能は、最先端のXベクトル/PLDAベースの自動話者検証システムと比較された。
その結果,アメリカ英語の母語話者では,人間と機械の双方がスタイル整合刺激に優れ,人的パフォーマンスが良好であった。
ネイティブリスナーは、スタイルマッチングされた条件では機械よりも優れた性能を発揮した(読み上げ音声では6.96%、会話では14.35%、会話では15.12%、会話では19.87%)。
いずれの条件においても,人間と機械は話者識別課題に対して異なるアプローチを持っていることが示唆された。
さらに, 個人話者に対する評価結果から, 異なる話者と混同した話者の認識が, 人間の聞き手と機械によって異なることを示した。
関連論文リスト
- No More Mumbles: Enhancing Robot Intelligibility through Speech Adaptation [7.675340768192281]
39名の参加者を対象とした音声理解研究を行った。
実験の結果,音質のよい空間は,知性やユーザ体験と正の相関関係があることが示唆された。
我々は,ロボットの音声パラメータを異なるユーザや空間に適応させる畳み込みニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2024-05-15T21:28:55Z) - Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric
and Elderly Speech Recognition [48.33873602050463]
話者適応技術は、そのようなユーザのためのASRシステムのパーソナライズに重要な役割を果たしている。
変形性関節症、高齢者、および正常音声の分光時間差による動機づけ
SVD音声スペクトルを用いた新しい分光時空間ベース深層埋め込み
論文 参考訳(メタデータ) (2022-02-21T15:11:36Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification [23.970866246001652]
UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。
PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T22:47:12Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。