論文の概要: The Impact of Automatic Speech Transcription on Speaker Attribution
- arxiv url: http://arxiv.org/abs/2507.08660v1
- Date: Fri, 11 Jul 2025 15:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.39638
- Title: The Impact of Automatic Speech Transcription on Speaker Attribution
- Title(参考訳): 自動音声書き起こしが話者帰属に及ぼす影響
- Authors: Cristina Aggazzotti, Matthew Wiesner, Elizabeth Allyn Smith, Nicholas Andrews,
- Abstract要約: 本論文は,音声認識が話者帰属性に与える影響について,初めて包括的研究を行ったものである。
属性は単語レベルの転写エラーに対して驚くほど回復力があることがわかった。
以上の結果から, ASR が生成する誤りに富む文字の話者属性は, 人文データに基づく話者属性と同程度に優れていることが示唆された。
- 参考スコア(独自算出の注目度): 7.588876479279435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker attribution from speech transcripts is the task of identifying a speaker from the transcript of their speech based on patterns in their language use. This task is especially useful when the audio is unavailable (e.g. deleted) or unreliable (e.g. anonymized speech). Prior work in this area has primarily focused on the feasibility of attributing speakers using transcripts produced by human annotators. However, in real-world settings, one often only has more errorful transcripts produced by automatic speech recognition (ASR) systems. In this paper, we conduct what is, to our knowledge, the first comprehensive study of the impact of automatic transcription on speaker attribution performance. In particular, we study the extent to which speaker attribution performance degrades in the face of transcription errors, as well as how properties of the ASR system impact attribution. We find that attribution is surprisingly resilient to word-level transcription errors and that the objective of recovering the true transcript is minimally correlated with attribution performance. Overall, our findings suggest that speaker attribution on more errorful transcripts produced by ASR is as good, if not better, than attribution based on human-transcribed data, possibly because ASR transcription errors can capture speaker-specific features revealing of speaker identity.
- Abstract(参考訳): 音声の文字起こしからの話者帰属は、言語使用のパターンに基づいて、音声の文字起こしから話者を識別するタスクである。
このタスクは、音声が利用できない(eg削除)または信頼できない(eg匿名化音声)場合に特に有用である。
この領域での以前の研究は、主に人間の注釈による転写を用いて話者を帰属させることの実現性に焦点を当てていた。
しかし、現実の環境では、自動音声認識(ASR)システムによって生成される誤りの多い書き起こししか持たないことが多い。
本稿では,自動文字起こしが話者帰属能力に与える影響について,私たちの知る限り,最初の総合的研究を行う。
特に,ASRシステムの特性が話者帰属特性に与える影響について検討し,話者帰属性能が転写誤りに直面する程度について検討した。
属性は単語レベルの転写誤りに対して驚くほど耐性があり,真の転写文を復元する目的は属性性能と最小限の相関があることが判明した。
以上の結果から,ASRによる話者属性は,話者識別に起因した話者固有の特徴を捉えることができるため,人文データに基づく話者属性と同程度に優れていることが示唆された。
関連論文リスト
- ExPO: Explainable Phonetic Trait-Oriented Network for Speaker Verification [48.98768967435808]
我々は,音声が登録話者の同一性に一致するかどうかを検証するために,計算手法を用いる。
多くの成功にもかかわらず、我々はまだ説明可能な結果を提供する話者検証システムを開発していない。
本稿では, 話者の音声特性を紹介するために, 説明可能な音声トラヒック指向(ExPO)ネットワークを提案する。
論文 参考訳(メタデータ) (2025-01-10T05:53:37Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Quantification of stylistic differences in human- and ASR-produced transcripts of African American English [1.8021379035665333]
動詞と非動詞の区別は、ASRのパフォーマンス評価において重要な役割を果たす。
アフリカン・アメリカン・イングリッシュ・スピーチの10時間における6つの転写版と4つのASRと2つのASRのスタイリスティックな違いを分類した。
本稿では,これらのカテゴリ間の相互作用と,単語誤り率による書き起こしの精度について検討する。
論文 参考訳(メタデータ) (2024-09-04T20:18:59Z) - Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - Investigating the Sensitivity of Automatic Speech Recognition Systems to
Phonetic Variation in L2 Englishes [3.198144010381572]
この研究は、複数のL2英語で音声変化を処理する方法を見つけるために、ASRシステムを探索する方法を実証する。
ASRの振る舞いは、類似した話し言葉を持つ話者間で体系的かつ一貫性があることが示されている。
論文 参考訳(メタデータ) (2023-05-12T11:29:13Z) - Improving Self-Supervised Speech Representations by Disentangling
Speakers [56.486084431528695]
音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
論文 参考訳(メタデータ) (2022-04-20T04:56:14Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。