Fugu-MT 論文翻訳(概要): MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues

論文の概要: MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues

arxiv url: http://arxiv.org/abs/2408.14418v2
Date: Fri, 6 Sep 2024 03:05:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-09 17:59:54.806888
Title: MEDSAGE: Enhancing Robustness of Medical Dialogue Summarization to ASR Errors with LLM-generated Synthetic Dialogues
Title（参考訳）: MEDSAGE: LLM合成対話を用いたASR誤りに対する医療対話要約のロバスト性向上
Authors: Kuluhan Binici, Abhinav Ramesh Kashyap, Viktor Schlegel, Andy T. Liu, Vijay Prakash Dwivedi, Thanh-Tung Nguyen, Xiaoxue Gao, Nancy F. Chen, Stefan Winkler,
Abstract要約: 音声認識エラーは、要約のような下流タスクのパフォーマンスを著しく低下させる可能性がある。大規模言語モデルを用いたデータ拡張のための合成サンプル生成手法であるMEDSAGEを提案する。 LLMは、ASRノイズを効果的にモデル化することができ、このノイズデータをトレーニングプロセスに組み込むことで、医用対話要約システムの堅牢性と精度が大幅に向上する。
参考スコア（独自算出の注目度）: 41.23757609484281
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Speech Recognition (ASR) systems are pivotal in transcribing speech into text, yet the errors they introduce can significantly degrade the performance of downstream tasks like summarization. This issue is particularly pronounced in clinical dialogue summarization, a low-resource domain where supervised data for fine-tuning is scarce, necessitating the use of ASR models as black-box solutions. Employing conventional data augmentation for enhancing the noise robustness of summarization models is not feasible either due to the unavailability of sufficient medical dialogue audio recordings and corresponding ASR transcripts. To address this challenge, we propose MEDSAGE, an approach for generating synthetic samples for data augmentation using Large Language Models (LLMs). Specifically, we leverage the in-context learning capabilities of LLMs and instruct them to generate ASR-like errors based on a few available medical dialogue examples with audio recordings. Experimental results show that LLMs can effectively model ASR noise, and incorporating this noisy data into the training process significantly improves the robustness and accuracy of medical dialogue summarization systems. This approach addresses the challenges of noisy ASR outputs in critical applications, offering a robust solution to enhance the reliability of clinical dialogue summarization.
Abstract（参考訳）: 音声認識(ASR)システムは、音声をテキストに書き起こす上で重要なシステムであるが、それらが導入した誤りは、要約のような下流タスクのパフォーマンスを著しく低下させる可能性がある。この問題は、微調整のための教師付きデータが不足している低リソース領域である臨床対話要約において特に顕著であり、ブラックボックスソリューションとしてASRモデルを使用する必要がある。要約モデルのノイズロバスト性を高めるために従来のデータ拡張を利用することは、十分な医療対話音声記録とそれに対応するASR転写が利用できないため、実現不可能である。そこで本研究では,大規模言語モデル(LLM)を用いたデータ拡張のための合成サンプル生成手法であるMEDSAGEを提案する。具体的には、LLMのテキスト内学習機能を活用し、音声録音で利用可能な医療対話例に基づいて、ASRのようなエラーを生成するよう指示する。実験の結果,LSMはASRノイズを効果的にモデル化し,このノイズデータをトレーニングプロセスに組み込むことで,医用対話要約システムの堅牢性と精度を著しく向上できることがわかった。本手法は、臨床対話要約の信頼性を高めるための堅牢なソリューションを提供する、重要な応用におけるノイズの多いASR出力の課題に対処する。

関連論文リスト

Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文参考訳（メタデータ） (2025-06-23T15:30:50Z)
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [3.505838221203969]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。応答を話者対応音声合成により合成音声に変換する。マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文参考訳（メタデータ） (2025-06-04T15:42:53Z)
Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文参考訳（メタデータ） (2025-01-29T18:58:48Z)
Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文参考訳（メタデータ） (2024-08-12T10:21:09Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文参考訳（メタデータ） (2024-06-14T16:56:40Z)
Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文参考訳（メタデータ） (2024-05-26T19:58:38Z)
It's Never Too Late: Fusing Acoustic Information into Large Language Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文参考訳（メタデータ） (2024-02-08T07:21:45Z)
Large Language Models are Efficient Learners of Noise-Robust Speech Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文参考訳（メタデータ） (2024-01-19T01:29:27Z)
Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文参考訳（メタデータ） (2021-10-28T20:39:02Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)
Data Augmentation for Training Dialog Models Robust to Speech Recognition Errors [5.53506103787497]
Amazon Alexa、Google Assistant、Apple Siriなどの音声ベースのバーチャルアシスタントは、通常、ユーザーの音声信号を自動音声認識(ASR)を通じてテキストデータに変換する。 ASR出力はエラーを起こしやすいが、下流のダイアログモデルはしばしばエラーのないテキストデータに基づいて訓練され、推論時間中にASRエラーに敏感になる。我々は、ASRエラーシミュレータを利用して、エラーのないテキストデータにノイズを注入し、その後、拡張データでダイアログモデルを訓練する。
論文参考訳（メタデータ） (2020-06-10T03:18:15Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。