論文の概要: Cross-Lingual Interleaving for Speech Language Models
- arxiv url: http://arxiv.org/abs/2512.01865v1
- Date: Mon, 01 Dec 2025 16:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.967325
- Title: Cross-Lingual Interleaving for Speech Language Models
- Title(参考訳): 言語モデルのための言語間インターリービング
- Authors: Adel Moumen, Guangzhi Sun, Philip C. Woodland,
- Abstract要約: 音声言語モデル(SLM)は,個別単位を用いて言語能力を直接学習することを目的としている。
本稿では,言語間で音声トークンを混在させる言語間相互補完手法を提案する。
- 参考スコア(独自算出の注目度): 29.477655980414273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Language Models (SLMs) aim to learn linguistic competence directly from speech using discrete units, widening access to Natural Language Processing (NLP) technologies for languages with limited written resources. However, progress has been largely English-centric due to scarce spoken evaluation benchmarks and training data, making cross-lingual learning difficult. We present a cross-lingual interleaving method that mixes speech tokens across languages without textual supervision. We also release an EN-FR training dataset, TinyStories (~42k hours), together with EN-FR spoken StoryCloze and TopicCloze benchmarks for cross-lingual semantic evaluation, both synthetically generated using GPT-4. On 360M and 1B SLMs under matched training-token budgets, interleaving improves monolingual semantic accuracy, enables robust cross-lingual continuation, and strengthens cross-lingual hidden-state alignment. Taken together, these results indicate that cross-lingual interleaving is a simple, scalable route to building multilingual SLMs that understand and converse across languages. All resources will be made open-source to support reproducibility.
- Abstract(参考訳): Spoken Language Models (SLMs) は、独立した単位を用いて言語能力を直接学習し、限られたリソースを持つ言語に対する自然言語処理(NLP)技術へのアクセスを広げることを目的としている。
しかし、音声評価ベンチマークやトレーニングデータが少ないため、英語中心の進歩が進んでおり、言語間の学習が困難になっている。
本稿では,言語間で音声トークンを混在させる言語間相互補完手法を提案する。
また、EN-FR学習データセットであるTinyStories(約42k時間)とEN-FR音声のStoryClozeとTopicClozeベンチマークもリリースし、GPT-4を用いて合成的に生成された。
360M と 1B の SLM は一致した訓練予算の下では、インターリービングは単言語意味の精度を改善し、頑健な言語間連続を可能にし、言語間隠れ状態アライメントを強化する。
これらの結果から,多言語間インターリービングは,言語間の理解と会話が可能な多言語SLMを構築するための,シンプルでスケーラブルな経路であることが示唆された。
すべてのリソースは、再現性をサポートするためにオープンソースにされる。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。