論文の概要: Topic Model Robustness to Automatic Speech Recognition Errors in Podcast
Transcripts
- arxiv url: http://arxiv.org/abs/2109.12306v1
- Date: Sat, 25 Sep 2021 07:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 13:13:21.960034
- Title: Topic Model Robustness to Automatic Speech Recognition Errors in Podcast
Transcripts
- Title(参考訳): ポッドキャスト音声の音声認識誤りに対する話題モデルロバスト性
- Authors: Raluca Alexandra Fetic, Mikkel Jordahn, Lucas Chaves Lima, Rasmus Arpe
Fogh Egeb{\ae}k, Martin Carsten Nielsen, Benjamin Biering, Lars Kai Hansen
- Abstract要約: 本研究では,音声認識エンジンが生成した転写文に適用した場合の潜在ディリクレ割当トピックモデルのロバスト性について検討する。
まず,自動文字起こしによる話題埋め込みとポッドキャスト作成者によるポッドキャスト記述のコサイン類似度スコアのベースラインを観察する。
そして、転写ノイズの増加に伴ってコサインの類似度が減少する様子を観察し、自動音声認識文字が誤りである場合でも、その転写から高品質なトピック埋め込みを得ることができると結論づける。
- 参考スコア(独自算出の注目度): 4.526933031343007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a multilingual podcast streaming service, it is critical to be able to
deliver relevant content to all users independent of language. Podcast content
relevance is conventionally determined using various metadata sources. However,
with the increasing quality of speech recognition in many languages, utilizing
automatic transcriptions to provide better content recommendations becomes
possible. In this work, we explore the robustness of a Latent Dirichlet
Allocation topic model when applied to transcripts created by an automatic
speech recognition engine. Specifically, we explore how increasing
transcription noise influences topics obtained from transcriptions in Danish; a
low resource language. First, we observe a baseline of cosine similarity scores
between topic embeddings from automatic transcriptions and the descriptions of
the podcasts written by the podcast creators. We then observe how the cosine
similarities decrease as transcription noise increases and conclude that even
when automatic speech recognition transcripts are erroneous, it is still
possible to obtain high-quality topic embeddings from the transcriptions.
- Abstract(参考訳): 多言語ポッドキャストストリーミングサービスにとって、言語に依存しないすべてのユーザに関連するコンテンツを配信できることは重要です。
ポッドキャストの内容の関連性は、様々なメタデータソースを用いて決定される。
しかし、多くの言語で音声認識の質が高まるにつれて、より優れたコンテンツレコメンデーションを提供するために自動転写を利用することが可能となる。
本研究では,音声認識エンジンが生成した転写文に適用した場合の潜在ディリクレ割当トピックモデルのロバスト性について検討する。
具体的には,書き起こしノイズの増加がデンマーク語の書き起こしから得られる話題にどのように影響するかを検討する。
まず,自動文字起こしによる話題埋め込みと,ポッドキャスト作成者によるポッドキャスト記述のコサイン類似度スコアのベースラインを観察する。
そして、転写ノイズの増加に伴ってコサインの類似度が減少する様子を観察し、自動音声認識文字が誤りである場合でも、その転写から高品質なトピック埋め込みを得ることができると結論づける。
関連論文リスト
- Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling [62.25533750469467]
そこで本稿では,正確な音声タイムスタンプと話者識別機能を備えた,対話の完全な書き起こしを生成する音声-視覚的手法を提案する。
本手法は,Seinfeld,Fraiser,Scrubsなど,様々なテレビシットコムに対して評価を行った。
このシステムは,最新のストリーミングサービスで利用可能なビデオのアクセシビリティを向上させるために,字幕の自動生成に有用であると考えられる。
論文 参考訳(メタデータ) (2024-01-22T15:26:01Z) - Can Authorship Attribution Models Distinguish Speakers in Speech
Transcripts? [4.662759517294026]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。