論文の概要: Resolving Transcription Ambiguity in Spanish: A Hybrid Acoustic-Lexical
System for Punctuation Restoration
- arxiv url: http://arxiv.org/abs/2402.03519v1
- Date: Mon, 5 Feb 2024 21:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:47:59.824611
- Title: Resolving Transcription Ambiguity in Spanish: A Hybrid Acoustic-Lexical
System for Punctuation Restoration
- Title(参考訳): スペイン語における書き起こしの曖昧さの解消 : 句読点復元のためのハイブリッド音響語彙システム
- Authors: Xiliang Zhu, Chia-Tien Chang, Shayna Gardiner, David Rossouw, Jonas
Robertson
- Abstract要約: 本稿では,スペイン語転写のためのハイブリッド音響-語彙句読解システムを提案する。
実験の結果,提案システムは質問点のF1スコアと全体的な句読点回復を効果的に改善できることがわかった。
- 参考スコア(独自算出の注目度): 0.4821250031784094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Punctuation restoration is a crucial step after Automatic Speech Recognition
(ASR) systems to enhance transcript readability and facilitate subsequent NLP
tasks. Nevertheless, conventional lexical-based approaches are inadequate for
solving the punctuation restoration task in Spanish, where ambiguity can be
often found between unpunctuated declaratives and questions. In this study, we
propose a novel hybrid acoustic-lexical punctuation restoration system for
Spanish transcription, which consolidates acoustic and lexical signals through
a modular process. Our experiment results show that the proposed system can
effectively improve F1 score of question marks and overall punctuation
restoration on both public and internal Spanish conversational datasets.
Additionally, benchmark comparison against LLMs (Large Language Model)
indicates the superiority of our approach in accuracy, reliability and latency.
Furthermore, we demonstrate that the Word Error Rate (WER) of the ASR module
also benefits from our proposed system.
- Abstract(参考訳): Punctuation restorationは、転写可読性を高め、その後のNLPタスクを促進するための自動音声認識(ASR)システムにとって重要なステップである。
それでも、従来の語彙に基づくアプローチはスペイン語の句読点復元の課題を解くには不十分であり、不定詞と疑問の間に曖昧さがしばしば見られる。
そこで本研究では,モジュールプロセスを通じて音響信号と語彙信号を統合する,スペイン語転写のためのハイブリッド音響-語彙句読解システムを提案する。
実験の結果,提案システムでは,スペイン語の公会話データセットと内部会話データセットの総合的な句読点復元とF1スコアを効果的に改善できることがわかった。
さらに、LLM(Large Language Model)に対するベンチマーク比較は、精度、信頼性、レイテンシにおける我々のアプローチの優位性を示している。
さらに,asrモジュールの単語誤り率(wer)も提案するシステムからメリットがあることを実証する。
関連論文リスト
- Spoken Grammar Assessment Using LLM [10.761744330206065]
音声言語評価システム(SLA: Spoken Language Assessment)は, 話者の発音と口頭流速を分析し, 読み上げ音声と自発音声をそれぞれ分析する。
ほとんどのWLAシステムは、キュレートされた有限サイズの文データベースから一連の文を表示し、テスト質問を予測し、自分自身を訓練することができる。
音声音声から言語文法を評価するための新しいエンドツーエンドSLAシステムを提案し、WLAシステムを冗長にする。
論文 参考訳(メタデータ) (2024-10-02T14:15:13Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - The Sound of Healthcare: Improving Medical Transcription ASR Accuracy
with Large Language Models [0.0]
大言語モデル(LLM)は、医学転写における音声認識システム(ASR)の精度を高めることができる。
本研究は, 単語誤り率(WER), 医用概念WER(MC-WER)の精度向上, 話者ダイアリゼーション精度の向上に焦点を当てた。
論文 参考訳(メタデータ) (2024-02-12T14:01:12Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Punctuation Restoration in Spanish Customer Support Transcripts using
Transfer Learning [0.0]
本稿では,リアルタイムの顧客支援転写サービスのために設計されたスペイン語句読点復元システムを提案する。
顧客サポート領域におけるスペイン文字のデータの分散性に対処するために、トランスファーラーニングに基づく2つの戦略を導入する。
論文 参考訳(メタデータ) (2022-05-27T13:14:23Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。
また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文 参考訳(メタデータ) (2020-07-04T07:15:13Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。