Fugu-MT 論文翻訳(概要): Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data

論文の概要: Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data

arxiv url: http://arxiv.org/abs/2409.10969v1
Date: Tue, 17 Sep 2024 08:11:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 17:28:59.457000
Title: Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data
Title（参考訳）: コード切替データを用いたLLMにおける多言語音声生成と認識能力の強化
Authors: Jing Xu, Daxin Tan, Jiaqi Wang, Xiao Chen,
Abstract要約: 本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
参考スコア（独自算出の注目度）: 30.966072545451183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While large language models (LLMs) have been explored in the speech domain for both generation and recognition tasks, their applications are predominantly confined to the monolingual scenario, with limited exploration in multilingual and code-switched (CS) contexts. Additionally, speech generation and recognition tasks are often handled separately, such as VALL-E and Qwen-Audio. In this paper, we propose a MutltiLingual MultiTask (MLMT) model, integrating multilingual speech generation and recognition tasks within the single LLM. Furthermore, we develop an effective data construction approach that splits and concatenates words from different languages to equip LLMs with CS synthesis ability without relying on CS data. The experimental results demonstrate that our model outperforms other baselines with a comparable data scale. Furthermore, our data construction approach not only equips LLMs with CS speech synthesis capability with comparable speaker consistency and similarity to any given speaker, but also improves the performance of LLMs in multilingual speech generation and recognition tasks.
Abstract（参考訳）: 大きな言語モデル(LLM)は、生成タスクと認識タスクの両方において音声領域で探索されてきたが、それらのアプリケーションは、多言語およびコードスイッチング(CS)のコンテキストにおいて限定的な探索によって、主にモノリンガルのシナリオに限られている。さらに、VALL-EやQwen-Audioのように、音声認識や認識タスクは別々に扱われることが多い。本稿では,MutltiLingual MultiTask (MLMT)モデルを提案する。さらに,異なる言語から単語を分割・結合し,CSデータに頼ることなくCS合成能力を備えたLLMを具備する効率的なデータ構築手法を開発した。実験結果から,我々のモデルはデータスケールに匹敵する他のベースラインよりも優れていることが示された。さらに,データ構築手法は,CS音声合成機能を備えたLLMを,任意の話者に匹敵する話者整合性と類似性を持つとともに,多言語音声生成・認識タスクにおけるLLMの性能を向上させる。

関連論文リスト

A Unified Speech LLM for Diarization and Speech Recognition in Multilingual Conversations [25.58593495281218]
本稿では、ダイアリゼーションとASRをエンドツーエンドで共同で行う統一音声LLMを提案する。トレーニングデータフォーマットを再構成し,推論手順を変更することで,事前分類音声に固有のあいまいさに対処する。
論文参考訳（メタデータ） (2025-06-26T01:54:02Z)
From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM [21.454870778985153]
既存の大言語モデル(LLM)を音声の離散化と事前学習により音声モダリティに拡張する。結果として得られるオープンソースモデルであるSPIREは、翻訳関連タスクにおけるTOWERの本来のパフォーマンスを維持しながら、英語の音声入力を書き起こし、翻訳することができる。
論文参考訳（メタデータ） (2025-03-13T17:57:32Z)
Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文参考訳（メタデータ） (2024-12-24T17:37:11Z)
Code-mixed LLM: Improve Large Language Models' Capability to Handle Code-Mixing through Reinforcement Learning from AI Feedback [11.223762031003671]
コードミキシングは、構文ミスマッチやセマンティックブレンディングなど、日常生活におけるユニークな課題を導入している。大規模言語モデル(LLM)は、人間の言語を理解するのに前例のない能力を提供することによって、自然言語処理(NLP)の分野に革命をもたらした。本稿では,人間フィードバック(RLHF)とコード混合機械翻訳タスクの強化学習を通じて,多言語LLMのコードミキシング理解能力を改善することを提案する。
論文参考訳（メタデータ） (2024-11-13T22:56:00Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文参考訳（メタデータ） (2024-04-16T21:45:59Z)
Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文参考訳（メタデータ） (2023-12-30T14:20:04Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。