論文の概要: Efficient Training for Cross-lingual Speech Language Models
- arxiv url: http://arxiv.org/abs/2604.11096v1
- Date: Mon, 13 Apr 2026 07:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.388762
- Title: Efficient Training for Cross-lingual Speech Language Models
- Title(参考訳): 言語間言語モデルの効率的な学習
- Authors: Yan Zhou, Qingkai Fang, Yun Hong, Yang Feng,
- Abstract要約: 言語間言語モデル(CSLM)は,離散音声トークンに基づく言語間言語LLMの効率的な訓練手法である。
本稿では, 連続的な事前学習を通じて, モーダルおよび言語間のアライメントを実現する新しいアライメント戦略を提案する。
- 参考スコア(独自算出の注目度): 35.512064681474065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, large language models (LLMs) predominantly focus on the text modality. To enable more natural human-AI interaction, speech LLMs are emerging, but building effective end-to-end speech LLMs remains challenging due to limited data and the difficulty in expanding to more languages. In this paper, we introduce Cross-lingual Speech Language Model (CSLM), an efficient training method for cross-lingual speech LLMs based on discrete speech tokens. We propose a novel alignment strategy that achieves cross-modal and cross-lingual alignment through continual pre-training. By conducting instruction fine-tuning following a speech-text interleaved chain-of-modality generation process, we enhance modal alignment at a finer granularity, thereby improving generation quality and reducing latency. CSLM aligns different modalities and languages simultaneously without the need for massive speech data, thus exhibiting good language scalability. Evaluations on cross-modal tasks, mono-lingual conversational tasks, and cross-lingual conversational tasks demonstrate CSLM's strong cross-modal alignment capabilities and general task abilities. (Code is available at: https://github.com/ictnlp/CSLM)
- Abstract(参考訳): 現在、大きな言語モデル(LLM)は、主にテキストのモダリティに焦点を当てている。
より自然な人間とAIの対話を可能にするために、LLMは出現しつつあるが、限られたデータとより多くの言語への拡張が難しいため、効果的なエンドツーエンドの音声LLMの構築は依然として困難である。
本稿では,離散音声トークンに基づく言語間LLMの効率的な訓練手法であるCSLMを提案する。
本稿では, 連続的な事前学習を通じて, モーダルおよび言語間のアライメントを実現する新しいアライメント戦略を提案する。
音声文のインターリーブド・チェーン・オブ・モダリティ生成プロセスに従って命令の微調整を行うことで、より微細な粒度でのモーダルアライメントを強化し、生成品質の向上とレイテンシの低減を図る。
CSLMは、大量の音声データを必要とせずに異なるモダリティと言語を同時に調整し、優れた言語スケーラビリティを示す。
クロスモーダルなタスク、モノリンガルな会話タスク、およびクロスランガルな会話タスクの評価は、CSLMの強力なクロスモーダルなアライメント能力と一般的なタスク能力を示している。
(https://github.com/ictnlp/CSLM)
関連論文リスト
- Cross-Lingual Interleaving for Speech Language Models [29.477655980414273]
音声言語モデル(SLM)は,個別単位を用いて言語能力を直接学習することを目的としている。
本稿では,言語間で音声トークンを混在させる言語間相互補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-01T16:48:05Z) - PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - From TOWER to SPIRE: Adding the Speech Modality to a Translation-Specialist LLM [24.31773681590982]
音声入力を英語から10言語に翻訳・翻訳できる音声拡張言語モデル(LM)であるSpireを紹介する。
Spireは、音声の離散化を通じて既存の多言語LMに統合し、わずか42.5K時間で事前学習を継続する。
論文 参考訳(メタデータ) (2025-03-13T17:57:32Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。