論文の概要: Auto Review: Second Stage Error Detection for Highly Accurate Information Extraction from Phone Conversations
- arxiv url: http://arxiv.org/abs/2506.05400v1
- Date: Tue, 03 Jun 2025 23:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.126244
- Title: Auto Review: Second Stage Error Detection for Highly Accurate Information Extraction from Phone Conversations
- Title(参考訳): 自動レビュー:電話会話からの高精度情報抽出のための第2段階誤り検出
- Authors: Ayesha Qamar, Arushi Raghuvanshi, Conal Sathi, Youngseo Son,
- Abstract要約: 正確な情報抽出のための第2段階のコール後パイプラインを提案する。
複数のASR代替品と擬似ラベル手法を用いて精度を向上する。
- 参考スコア(独自算出の注目度): 1.4199474167684119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating benefit verification phone calls saves time in healthcare and helps patients receive treatment faster. It is critical to obtain highly accurate information in these phone calls, as it can affect a patient's healthcare journey. Given the noise in phone call transcripts, we have a two-stage system that involves a post-call review phase for potentially noisy fields, where human reviewers manually verify the extracted data$\unicode{x2013}$a labor-intensive task. To automate this stage, we introduce Auto Review, which significantly reduces manual effort while maintaining a high bar for accuracy. This system, being highly reliant on call transcripts, suffers a performance bottleneck due to automatic speech recognition (ASR) issues. This problem is further exacerbated by the use of domain-specific jargon in the calls. In this work, we propose a second-stage postprocessing pipeline for accurate information extraction. We improve accuracy by using multiple ASR alternatives and a pseudo-labeling approach that does not require manually corrected transcripts. Experiments with general-purpose large language models and feature-based model pipelines demonstrate substantial improvements in the quality of corrected call transcripts, thereby enhancing the efficiency of Auto Review.
- Abstract(参考訳): 医療の時間を節約し、患者がより早く治療を受けるのを助ける。
患者の医療活動に影響を及ぼすため、これらの電話で高精度な情報を得ることが重要である。
通話書き起こしのノイズを考慮すると、潜在的なノイズのあるフィールドに対するコール後レビューフェーズを含む2段階のシステムがあり、人間のレビュアーが抽出したデータを手作業で検証する。
このステージを自動化するために,高いバーの精度を維持しながら手作業を大幅に削減するAuto Reviewを導入する。
このシステムは,音声の自動音声認識(ASR)問題による性能ボトルネックに悩まされている。
この問題は、呼び出しにドメイン固有のjargonを使用することによってさらに悪化する。
本研究では,情報抽出のための第2段後処理パイプラインを提案する。
我々は、複数のASR代替案と、手書きの修正を必要としない擬似ラベル方式を用いることで、精度を向上させる。
汎用的な大規模言語モデルと機能ベースのモデルパイプラインによる実験は、修正された呼び出し書き起こしの品質を大幅に改善し、Auto Reviewの効率を向上する。
関連論文リスト
- Automatic classification of stop realisation with wav2vec2.0 [0.24466725954625887]
wav2vec2.0モデルは英語と日本語の両方で高い精度でバースト存在を自動的に分類する訓練が可能であることを示す。
その結果,音声コーパスデータの自動アノテーションおよび処理ツールとして,事前学習音声モデルの可能性を実証した。
論文 参考訳(メタデータ) (2025-05-29T17:25:35Z) - Benchmarking Automatic Speech Recognition coupled LLM Modules for Medical Diagnostics [0.0]
本報告は、医療電話記録に微調整されたモデルを分析する、私のセルフプロジェクトとして機能する。
音声書き起こしのための音声認識(ASR)と文脈認識のための大規模言語モデル(LLM)を解析する。
論文 参考訳(メタデータ) (2025-02-18T14:05:13Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Human Transcription Quality Improvement [2.24166568188073]
本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という,転写品質向上のための2つのメカニズムを提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
論文 参考訳(メタデータ) (2023-09-24T03:39:43Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Spoken Term Detection Methods for Sparse Transcription in Very
Low-resource Settings [20.410074074340447]
2つの口頭言語での実験では、ターゲット言語音声のほんの数分で微調整された、事前訓練された普遍的な電話認識器が、音声語検出に使用できることが示されている。
グラフ構造における音素認識の曖昧さの表現は、低リソース音声語検出タスクにおいて高い精度を維持しながら、リコールをさらに促進できることを示す。
論文 参考訳(メタデータ) (2021-06-11T04:09:54Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Conditioned Text Generation with Transfer for Closed-Domain Dialogue
Systems [65.48663492703557]
条件付き変分オートエンコーダを用いて,意図特化文の生成を最適に学習し,制御する方法を示す。
クエリ転送と呼ばれる新しいプロトコルを導入し、大規模で遅延のないデータセットを活用できるようにします。
論文 参考訳(メタデータ) (2020-11-03T14:06:10Z) - Knowledge Distillation for Improved Accuracy in Spoken Question
Answering [63.72278693825945]
我々は,音声文書や書面文書から知識蒸留を行うための訓練戦略を考案した。
我々の研究は、言語モデルから知識の抽出を監督信号として進めている。
実験により,本手法はSpken-SQuADデータセット上で,最先端の言語モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-21T15:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。