論文の概要: LLM-based speaker diarization correction: A generalizable approach
- arxiv url: http://arxiv.org/abs/2406.04927v1
- Date: Fri, 7 Jun 2024 13:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 13:51:43.681987
- Title: LLM-based speaker diarization correction: A generalizable approach
- Title(参考訳): LLMに基づく話者ダイアリゼーション補正:一般化可能なアプローチ
- Authors: Georgios Efstathiadis, Vijay Yadav, Anzar Abbas,
- Abstract要約: ダイアリゼーション補正のための大規模言語モデル(LLM)を後処理のステップとして使用することを検討した。
ホールドアウトデータセットにおけるダイアリゼーション精度を向上させるためのモデルの能力を測定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker diarization is necessary for interpreting conversations transcribed using automated speech recognition (ASR) tools. Despite significant developments in diarization methods, diarization accuracy remains an issue. Here, we investigate the use of large language models (LLMs) for diarization correction as a post-processing step. LLMs were fine-tuned using the Fisher corpus, a large dataset of transcribed conversations. The ability of the models to improve diarization accuracy in a holdout dataset was measured. We report that fine-tuned LLMs can markedly improve diarization accuracy. However, model performance is constrained to transcripts produced using the same ASR tool as the transcripts used for fine-tuning, limiting generalizability. To address this constraint, an ensemble model was developed by combining weights from three separate models, each fine-tuned using transcripts from a different ASR tool. The ensemble model demonstrated better overall performance than each of the ASR-specific models, suggesting that a generalizable and ASR-agnostic approach may be achievable. We hope to make these models accessible through public-facing APIs for use by third-party applications.
- Abstract(参考訳): 自動音声認識(ASR)ツールを用いて書き起こされた会話の解釈には話者ダイアリゼーションが必要である。
ダイアリゼーション手法の進歩にもかかわらず、ダイアリゼーションの精度は依然として問題である。
本稿では,大言語モデル(LLM)を用いたダイアリゼーション補正を後処理のステップとして検討する。
LLMは、転写された会話の大規模なデータセットであるFisher corpusを使用して微調整された。
ホールドアウトデータセットにおけるダイアリゼーション精度を向上させるためのモデルの能力を測定した。
微調整LDMはダイアリゼーション精度を著しく向上させることができることを報告した。
しかし、モデル性能は、微調整や一般化可能性の制限に使用される転写文と同じASRツールを使用して生成された転写文に制約される。
この制約に対処するため、3つの異なるモデルの重みを組み合わせたアンサンブルモデルが開発された。
アンサンブルモデルでは、ASR固有のモデルよりも全体的な性能が向上し、一般化可能でASRに依存しないアプローチが実現可能であることが示唆された。
これらのモデルを,サードパーティアプリケーションで使用するための公開APIを通じて,アクセス可能にすることを願っています。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - LA-RAG:Enhancing LLM-based ASR Accuracy with Retrieval-Augmented Generation [15.520180125182756]
近年,大規模言語モデル(LLM)への音声情報統合の進歩により,音声認識(ASR)の精度が大幅に向上した。
既存の手法はアクセントのような様々な音響条件下での音声エンコーダの能力に制約されることが多い。
LA-RAGは、LLMベースのASRのための新しいRAGパラダイムである。
論文 参考訳(メタデータ) (2024-09-13T07:28:47Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - On-the-fly Text Retrieval for End-to-End ASR Adaptation [9.304386210911822]
本稿では,部分的ASR仮説に対して,外部テキストコーパスから可算完了を抽出する検索言語モデルを用いてトランスデューサベースのASRモデルを強化することを提案する。
実験の結果,提案モデルにより,一対の質問応答データセット上でのトランスデューサベースラインの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-03-20T08:54:40Z) - Scene Text Recognition with Permuted Autoregressive Sequence Models [15.118059441365343]
コンテキスト対応STRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用する。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARおよびコンテキスト対応AR推論を実現し、双方向コンテキストを用いた反復的洗練を実現する。
論文 参考訳(メタデータ) (2022-07-14T14:51:50Z) - Automatic Learning of Subword Dependent Model Scales [50.105894487730545]
本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
論文 参考訳(メタデータ) (2021-10-18T13:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。