論文の概要: Interactive Real-Time Speaker Diarization Correction with Human Feedback
- arxiv url: http://arxiv.org/abs/2509.18377v1
- Date: Mon, 22 Sep 2025 20:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.556632
- Title: Interactive Real-Time Speaker Diarization Correction with Human Feedback
- Title(参考訳): 人間のフィードバックによる対話型リアルタイム話者ダイアリゼーション補正
- Authors: Xinlu He, Yiwen Guan, Badrivishal Paurana, Zilin Dai, Jacob Whitehill,
- Abstract要約: 本研究では,LLMを用いた話者ダイアリゼーション補正システムを提案する。
本システムでは、DERを9.92%削減し、話者混同誤差を44.23%削減する。
- 参考スコア(独自算出の注目度): 2.149447183865652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most automatic speech processing systems operate in "open loop" mode without user feedback about who said what; yet, human-in-the-loop workflows can potentially enable higher accuracy. We propose an LLM-assisted speaker diarization correction system that lets users fix speaker attribution errors in real time. The pipeline performs streaming ASR and diarization, uses an LLM to deliver concise summaries to the users, and accepts brief verbal feedback that is immediately incorporated without disrupting interactions. Moreover, we develop techniques to make the workflow more effective: First, a split-when-merged (SWM) technique detects and splits multi-speaker segments that the ASR erroneously attributes to just a single speaker. Second, online speaker enrollments are collected based on users' diarization corrections, thus helping to prevent speaker diarization errors from occurring in the future. LLM-driven simulations on the AMI test set indicate that our system substantially reduces DER by 9.92% and speaker confusion error by 44.23%. We further analyze correction efficacy under different settings, including summary vs full transcript display, the number of online enrollments limitation, and correction frequency.
- Abstract(参考訳): ほとんどの自動音声処理システムは、ユーザのフィードバックなしに「オープンループ」モードで動作します。
本研究では,LLMを用いた話者ダイアリゼーション補正システムを提案する。
パイプラインはストリーミングASRとダイアリゼーションを実行し、LCMを使用して簡潔な要約をユーザに提供し、対話を中断することなく即時に組み込まれる短い言語フィードバックを受け入れる。
さらに、ワークフローをより効果的にするための技術も開発している。まず、SWM(split-when-merged)技術は、ASRが誤って1つの話者に属性付けしているマルチ話者セグメントを検出し、分割する。
第2に、ユーザのダイアリゼーション補正に基づいてオンライン話者登録が収集され、将来のダイアリゼーションエラーの発生を防止する。
AMIテストセット上でのLLM駆動シミュレーションにより,我々のシステムはDERを9.92%削減し,話者混同誤差を44.23%削減した。
さらに,要約と全書き起こし表示,オンライン登録制限数,修正頻度など,異なる設定下での補正の有効性を解析する。
関連論文リスト
- Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings [52.985061676464554]
短文脈話者埋め込み抽出のための知識蒸留に基づく学習手法を提案する。
我々は、ビームフォーミングを用いて興味ある話者の空間情報を活用し、重複を低減する。
以上の結果から,本モデルは短文埋め込み抽出に有効であり,重なりやすいことが示唆された。
論文 参考訳(メタデータ) (2025-08-18T11:32:13Z) - SEAL: Speaker Error Correction using Acoustic-conditioned Large Language Models [15.098665255729507]
音響ダイアリザからLLMへよりきめ細かな情報を提供するための新しい音響条件付け手法を提案する。
提案手法は,Fisher,Callhome,RT03-CTSデータセットの話者誤り率を24~43%削減する。
論文 参考訳(メタデータ) (2025-01-14T20:24:12Z) - Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - AG-LSEC: Audio Grounded Lexical Speaker Error Correction [9.54540722574194]
話者ダイアリゼーション(SD)システムは、通常音声ベースで、従来の音声転写パイプラインでは、ASRシステムとは独立して動作する。
本稿では,Lexical Speaker Error Correction (LSEC) システムを,既存のSDパイプラインから直接の話者スコアで拡張し,音響的に構築することを提案する。
このアプローチは、オーディオベースのSD、ASRシステムに対して25-40%の範囲でWDERを大幅に削減し、RT03-CTS、コールホーム・アメリカン・イングリッシュ、フィッシャーのデータセットに対して15-25%の差でLSECシステムを上回った。
論文 参考訳(メタデータ) (2024-06-25T04:20:49Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Cross-Modal ASR Post-Processing System for Error Correction and
Utterance Rejection [25.940199825317073]
音声認識のためのクロスモーダル後処理システムを提案する。
音響的特徴とテキスト的特徴を異なるモダリティから融合させる。
マルチタスク学習方式で信頼度推定器と誤り訂正器を結合する。
論文 参考訳(メタデータ) (2022-01-10T12:29:55Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。