論文の概要: A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations
- arxiv url: http://arxiv.org/abs/2507.02927v1
- Date: Thu, 26 Jun 2025 01:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.530736
- Title: A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations
- Title(参考訳): 多言語会話におけるダイアリゼーションと音声認識のための統一音声LLM
- Authors: Phurich Saengthong, Boonnithi Jiaramaneepinit, Sheng Li, Manabu Okumura, Takahiro Shinozaki,
- Abstract要約: 本稿では、ダイアリゼーションとASRをエンドツーエンドで共同で行う統一音声LLMを提案する。
トレーニングデータフォーマットを再構成し,推論手順を変更することで,事前分類音声に固有のあいまいさに対処する。
- 参考スコア(独自算出の注目度): 25.58593495281218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech Large Language Models (Speech LLMs) have emerged as a crucial paradigm in recent years, extending the capabilities of traditional LLMs to speech tasks such as automatic speech recognition (ASR) and spoken dialogue modeling. However, their effectiveness in real-world multilingual conversations remains limited by the scarcity of data that captures natural conversational phenomena. To address this, the MLC-SLM Challenge provides a multilingual conversational dataset and evaluates models on two tasks: ASR with oracle segmentation (Task I) and joint diarization and recognition without oracle information (Task II). In this paper, we focus on Task II and propose a unified speech LLM that jointly performs diarization and ASR in an end-to-end manner. By reformulating the training data format and modifying the inference procedure, our model addresses the ambiguity inherent in pre-segmented audio and achieves a 54.87\% relative improvement in tcpWER/tcpCER over the baseline, ranking 8th overall, despite using a smaller LLM backbone. We also report results from Task I using a fine-tuned speech LLM.
- Abstract(参考訳): 近年,音声大言語モデル(Speech LLM)が重要なパラダイムとして登場し,音声認識や音声対話モデリングなどの音声タスクに従来のLLMの能力を拡張している。
しかし、実世界の多言語会話におけるそれらの効果は、自然な会話現象を捉えたデータの不足によって制限されている。
この問題を解決するため、MLC-SLM Challengeは多言語会話データセットを提供し、ASR with Oracle segmentation (Task I)とJoint Diarization and Recognition without Oracle information (Task II)の2つのタスクでモデルを評価する。
本稿では,タスクIIに焦点をあて,ダイアリゼーションとASRをエンドツーエンドで共同で行う統一音声LLMを提案する。
トレーニングデータフォーマットの改定と推論手順の変更により,LLMバックボーンが小さくても,ベースライン上でのtcpWER/tcpCERの相対的改善率は54.87%となる。
また,微調整音声LLMを用いたタスクIの結果も報告する。
関連論文リスト
- Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving [36.246791887458194]
大規模言語モデル(LLM)はタスク間で顕著な一般化を示している。
LLMは通常、教師付き微調整を使用して、テキストベースのLLMと音声を一致させる。
本稿では,音声テキストをインターリーブしたマルチタスクの「行動模倣」手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:09:13Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Speech Recognition Rescoring with Large Speech-Text Foundation Models [20.145389016219106]
大規模言語モデル(LLM)は、大量のテキストデータを活用することで、人間の言語を理解する能力を示した。
自動音声認識(ASR)システムは、しばしば利用可能な転写音声データによって制限される。
最近の多モーダルな言語モデルでは、強い音声言語理解が示されている。
論文 参考訳(メタデータ) (2024-09-25T06:17:23Z) - Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data [30.966072545451183]
本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。
我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - An End-to-End Speech Summarization Using Large Language Model [7.562198375754054]
音声要約(SSum)は、音声コンテンツから人間に似たテキスト要約を生成することを目的としている。
大規模言語モデル(LLM)とマルチモーダル情報融合の研究は、新たな洞察をもたらした。
本稿では、Q-Formerを音声テキストモダリティのコネクタとして利用するエンドツーエンドのSSumモデルを提案する。
論文 参考訳(メタデータ) (2024-07-02T07:22:57Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。