論文の概要: OpusLM: A Family of Open Unified Speech Language Models
- arxiv url: http://arxiv.org/abs/2506.17611v1
- Date: Sat, 21 Jun 2025 06:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.502469
- Title: OpusLM: A Family of Open Unified Speech Language Models
- Title(参考訳): OpusLM: オープン統一言語モデルの一家系
- Authors: Jinchuan Tian, William Chen, Yifan Peng, Jiatong Shi, Siddhant Arora, Shikhar Bharadwaj, Takashi Maekaku, Yusuke Shinohara, Keita Goto, Xiang Yue, Huck Yang, Shinji Watanabe,
- Abstract要約: OpusLMは、213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前トレーニングされている。
本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
- 参考スコア(独自算出の注目度): 56.14140121061921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Open Unified Speech Language Models (OpusLMs), a family of open foundational speech language models (SpeechLMs) up to 7B. Initialized from decoder-only text language models, the OpusLMs are continuously pre-trained on 213K hours of speech-text pairs and 292B text-only tokens. We demonstrate our OpusLMs achieve comparable (or even superior) performance with existing SpeechLMs in speech recognition, speech synthesis, and text-only capabilities. Technically, this paper articulates our SpeechLM designs on tokenization, multi-stream language models, and multi-stage training strategies. We experimentally demonstrate the importance of model size scaling and the effect of annealing data selection. The OpusLMs are all built from publicly available materials and are fully transparent models. We release our code, data, checkpoints, and training logs to facilitate open SpeechLM research
- Abstract(参考訳): 本稿では,オープン基盤言語モデル (SpeechLMs) であるOpen Unified Speech Language Models (OpusLMs) を最大7Bまで提示する。
デコーダのみのテキスト言語モデルから初期化され、OpusLMは213K時間の音声テキストペアと292Bのテキスト専用トークンで継続的に事前訓練される。
我々は,既存の音声認識,音声合成,テキストのみの機能において,既存のSpeechLMと同等(あるいはさらに優れている)性能を達成することを実証する。
本稿では,トークン化,マルチストリーム言語モデル,マルチステージトレーニング戦略に関するSpeechLMの設計について述べる。
モデルサイズスケーリングの重要性とアニーリングデータ選択の効果を実験的に検証した。
OpusLMは一般に公開されている材料から作られ、完全に透明なモデルである。
オープンなSpeechLM研究を促進するためのコード、データ、チェックポイント、トレーニングログをリリースする。
関連論文リスト
- TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。