論文の概要: Topic Model Robustness to Automatic Speech Recognition Errors in Podcast
Transcripts
- arxiv url: http://arxiv.org/abs/2109.12306v1
- Date: Sat, 25 Sep 2021 07:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 13:13:21.960034
- Title: Topic Model Robustness to Automatic Speech Recognition Errors in Podcast
Transcripts
- Title(参考訳): ポッドキャスト音声の音声認識誤りに対する話題モデルロバスト性
- Authors: Raluca Alexandra Fetic, Mikkel Jordahn, Lucas Chaves Lima, Rasmus Arpe
Fogh Egeb{\ae}k, Martin Carsten Nielsen, Benjamin Biering, Lars Kai Hansen
- Abstract要約: 本研究では,音声認識エンジンが生成した転写文に適用した場合の潜在ディリクレ割当トピックモデルのロバスト性について検討する。
まず,自動文字起こしによる話題埋め込みとポッドキャスト作成者によるポッドキャスト記述のコサイン類似度スコアのベースラインを観察する。
そして、転写ノイズの増加に伴ってコサインの類似度が減少する様子を観察し、自動音声認識文字が誤りである場合でも、その転写から高品質なトピック埋め込みを得ることができると結論づける。
- 参考スコア(独自算出の注目度): 4.526933031343007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a multilingual podcast streaming service, it is critical to be able to
deliver relevant content to all users independent of language. Podcast content
relevance is conventionally determined using various metadata sources. However,
with the increasing quality of speech recognition in many languages, utilizing
automatic transcriptions to provide better content recommendations becomes
possible. In this work, we explore the robustness of a Latent Dirichlet
Allocation topic model when applied to transcripts created by an automatic
speech recognition engine. Specifically, we explore how increasing
transcription noise influences topics obtained from transcriptions in Danish; a
low resource language. First, we observe a baseline of cosine similarity scores
between topic embeddings from automatic transcriptions and the descriptions of
the podcasts written by the podcast creators. We then observe how the cosine
similarities decrease as transcription noise increases and conclude that even
when automatic speech recognition transcripts are erroneous, it is still
possible to obtain high-quality topic embeddings from the transcriptions.
- Abstract(参考訳): 多言語ポッドキャストストリーミングサービスにとって、言語に依存しないすべてのユーザに関連するコンテンツを配信できることは重要です。
ポッドキャストの内容の関連性は、様々なメタデータソースを用いて決定される。
しかし、多くの言語で音声認識の質が高まるにつれて、より優れたコンテンツレコメンデーションを提供するために自動転写を利用することが可能となる。
本研究では,音声認識エンジンが生成した転写文に適用した場合の潜在ディリクレ割当トピックモデルのロバスト性について検討する。
具体的には,書き起こしノイズの増加がデンマーク語の書き起こしから得られる話題にどのように影響するかを検討する。
まず,自動文字起こしによる話題埋め込みと,ポッドキャスト作成者によるポッドキャスト記述のコサイン類似度スコアのベースラインを観察する。
そして、転写ノイズの増加に伴ってコサインの類似度が減少する様子を観察し、自動音声認識文字が誤りである場合でも、その転写から高品質なトピック埋め込みを得ることができると結論づける。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。