論文の概要: Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition
- arxiv url: http://arxiv.org/abs/2509.04488v1
- Date: Mon, 01 Sep 2025 03:10:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.327579
- Title: Serialized Output Prompting for Large Language Model-based Multi-Talker Speech Recognition
- Title(参考訳): 大規模言語モデルに基づくマルチ話者音声認識のためのシリアライズされた出力プロンプト
- Authors: Hao Shi, Yusuke Fujita, Tomoya Mizumoto, Lianbo Liu, Atsushi Kojima, Yui Sudo,
- Abstract要約: 既存のマルチストーカー (MT) 自動音声認識 (ASR) システムは、省略プロンプトまたは単純なタスク定義プロンプトに依存している。
本稿では,逐次出力プロンプト(SOP)を抽出し,構造化プロンプトを用いてLLMを明示的に誘導し,システム性能を向上させることを提案する。
提案手法により, 2-および3-talker条件下での性能が有意に向上した。
- 参考スコア(独自算出の注目度): 27.16462631523899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompts are crucial for task definition and for improving the performance of large language models (LLM)-based systems. However, existing LLM-based multi-talker (MT) automatic speech recognition (ASR) systems either omit prompts or rely on simple task-definition prompts, with no prior work exploring the design of prompts to enhance performance. In this paper, we propose extracting serialized output prompts (SOP) and explicitly guiding the LLM using structured prompts to improve system performance (SOP-MT-ASR). A Separator and serialized Connectionist Temporal Classification (CTC) layers are inserted after the speech encoder to separate and extract MT content from the mixed speech encoding in a first-speaking-first-out manner. Subsequently, the SOP, which serves as a prompt for LLMs, is obtained by decoding the serialized CTC outputs using greedy search. To train the model effectively, we design a three-stage training strategy, consisting of serialized output training (SOT) fine-tuning, serialized speech information extraction, and SOP-based adaptation. Experimental results on the LibriMix dataset show that, although the LLM-based SOT model performs well in the two-talker scenario, it fails to fully leverage LLMs under more complex conditions, such as the three-talker scenario. The proposed SOP approach significantly improved performance under both two- and three-talker conditions.
- Abstract(参考訳): プロンプトはタスク定義や大規模言語モデル(LLM)ベースのシステムの性能向上に不可欠である。
しかし、既存のLLMベースのマルチストーカー(MT)自動音声認識(ASR)システムは、プロンプトを省略するか、単純なタスク定義プロンプトに依存している。
本稿では,SOP(Serialized output prompts)を抽出し,構造化プロンプトを用いてLLMを明示的に誘導し,システム性能を向上する(SOP-MT-ASR)。
音声エンコーダの後、分離器及びシリアライズされた接続時分類(CTC)層を挿入し、混合音声エンコーダからMTコンテンツを第一言語第一の方法で分離抽出する。
その後、LCMのプロンプトとして機能するSOPは、greedy検索を用いてシリアライズされたCTC出力を復号化して得られる。
モデルを効果的に訓練するために、直列出力訓練(SOT)、直列音声情報抽出、SOPに基づく適応からなる3段階トレーニング戦略を設計する。
LibriMixデータセットの実験的結果は、LLMベースのSOTモデルは2つのストーカーシナリオでうまく機能するが、3つのトーカーシナリオのようなより複雑な条件下ではLLMを完全に活用できないことを示している。
提案手法により, 2-および3-talker条件下での性能が有意に向上した。
関連論文リスト
- MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - LegoSLM: Connecting LLM with Speech Encoder using CTC Posteriors [22.845623101142483]
音声エンコーダと大言語モデル(LLM)を橋渡しする新しいパラダイムであるLegoSLMを提案する。
好成績なUSMモデルとGemmaモデルを用いて,提案手法がASRおよび音声翻訳タスクにおいて良好な性能を示すことを示す。
論文 参考訳(メタデータ) (2025-05-16T15:15:19Z) - Retrieval-Enhanced Few-Shot Prompting for Speech Event Extraction [0.0]
音声イベント抽出(SpeechEE)は、音声認識(ASR)と自然言語処理(NLP)の交差点に位置する課題である。
本稿では,Large Language Models (LLM) のセマンティック検索強化プロンプトと高性能ASRを統合したモジュール型パイプラインベースのSpeechEEフレームワークを提案する。
この結果から,LLMに強化されたパイプラインアプローチは,エンド・ツー・エンドのシステムに匹敵する,あるいは超越できることを示した。
論文 参考訳(メタデータ) (2025-04-30T07:10:10Z) - Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding [19.510385758079966]
リアルタイムScene Recommendation(LARR)を用いた大規模言語モデル
本稿では,Large Language Model Aided Real-time Scene Recommendation(LARR)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T10:56:26Z) - Prompting Large Language Models with Audio for General-Purpose Speech Summarization [13.415189715216354]
大規模言語モデル(LLM)の処理と推論機能を活用した音声要約フレームワークを提案する。
本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-06-10T02:04:28Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Harnessing the Zero-Shot Power of Instruction-Tuned Large Language Model in End-to-End Speech Recognition [23.172469312225694]
自動音声認識(ASR)におけるテキスト生成プロセスの指導に,命令調整付き大言語モデル(LLM)を用いることを提案する。
提案手法はCTCとアテンションアーキテクチャを併用し,LLMはデコーダのフロントエンド特徴抽出器として機能する。
実験結果から,LLM誘導モデルによる単語誤り率の相対的な増加率は,主要なベンチマークで約13%であった。
論文 参考訳(メタデータ) (2023-09-19T11:10:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。