論文の概要: DiarizationLM: Speaker Diarization Post-Processing with Large Language
Models
- arxiv url: http://arxiv.org/abs/2401.03506v4
- Date: Tue, 6 Feb 2024 22:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:23:33.285239
- Title: DiarizationLM: Speaker Diarization Post-Processing with Large Language
Models
- Title(参考訳): diarizationlm:大規模言語モデルを用いた話者ダイアリゼーション後処理
- Authors: Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao
- Abstract要約: DiarizationLMは、大きな言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークである。
このフレームワークは、市販のASRや話者ダイアリゼーションシステムにも容易に適用できる。
- 参考スコア(独自算出の注目度): 19.347265170074397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce DiarizationLM, a framework to leverage large
language models (LLM) to post-process the outputs from a speaker diarization
system. Various goals can be achieved with the proposed framework, such as
improving the readability of the diarized transcript, or reducing the word
diarization error rate (WDER). In this framework, the outputs of the automatic
speech recognition (ASR) and speaker diarization systems are represented as a
compact textual format, which is included in the prompt to an optionally
finetuned LLM. The outputs of the LLM can be used as the refined diarization
results with the desired enhancement. As a post-processing step, this framework
can be easily applied to any off-the-shelf ASR and speaker diarization systems
without retraining existing components. Our experiments show that a finetuned
PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone
conversation dataset, and rel. 44.9% on the Callhome English dataset.
- Abstract(参考訳): 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。
提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。
この枠組みでは、自動音声認識(asr)および話者ダイアリゼーションシステムの出力を、任意に微調整されたllmへのプロンプトに含まれるコンパクトテキスト形式として表現する。
LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。
処理後ステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、任意の既製のasrおよび話者ダイアリゼーションシステムに容易に適用できる。
実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。
Fisher 電話の会話データセットで55.5%、rel。
44.9%であった。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Enhancing the Stability of LLM-based Speech Generation Systems through
Self-Supervised Representations [14.437646262239612]
自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。
テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。
結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T15:08:19Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model
in End-to-End Speech Recognition [26.043533280932603]
命令調整型大言語モデル(LLM)とエンドツーエンド自動音声認識(ASR)の新たな統合を提案する。
本研究では,LLMのゼロショット機能を用いて,ASRの性能向上に寄与する言語情報を抽出する。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Text-to-Audio Generation using Instruction-Tuned LLM and Latent
Diffusion Model [23.058939018350603]
大型言語モデル(LLM)は、命令やチェーン・オブ・シンクベースの微調整など、多くの興味深い特性を実現する。
我々は、テキスト・トゥ・オーディオ(TTA)生成のためのテキストエンコーダとして、命令調整型LLM Flan-T5を採用する。
我々のアプローチであるTANGOは、ほとんどのメトリクスで最先端のAudioLDMより優れており、AudioCapsテストセットで他と同等です。
論文 参考訳(メタデータ) (2023-04-24T07:45:28Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。