論文の概要: From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
- arxiv url: http://arxiv.org/abs/2503.10620v2
- Date: Fri, 03 Oct 2025 06:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.713839
- Title: From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
- Title(参考訳): TOWERからSPIREへ:テキスト専用LLMに音声モダリティを加える
- Authors: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, André F. T. Martins, Marcely Zanon Boito,
- Abstract要約: 音声入力を英語から10言語に翻訳・翻訳できる音声拡張言語モデル(LM)であるSpireを紹介する。
Spireは、音声の離散化を通じて既存の多言語LMに統合し、わずか42.5K時間で事前学習を継続する。
- 参考スコア(独自算出の注目度): 24.31773681590982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Spire, a speech-augmented language model (LM) capable of both translating and transcribing speech input from English into 10 other languages as well as translating text input in both language directions. Spire integrates the speech modality into an existing multilingual LM via speech discretization and continued pre-training using only 42.5K hours of speech. In particular, we adopt the pretraining framework of multilingual LMs and treat discretized speech input as an additional translation language. This approach not only equips the model with speech capabilities, but also preserves its strong text-based performance. We achieve this using significantly less data than existing speech LMs, demonstrating that discretized speech input integration as an additional language is feasible during LM adaptation. We make our code and models available to the community.
- Abstract(参考訳): 音声入力を英語から10言語に翻訳し、テキスト入力を両言語方向に翻訳することのできる音声拡張言語モデル(LM)であるSpireを紹介する。
Spireは、音声の離散化を通じて既存の多言語LMに統合し、わずか42.5K時間で事前学習を継続する。
特に、多言語LMの事前学習フレームワークを採用し、音声認識された音声入力を追加の翻訳言語として扱う。
このアプローチは、モデルに音声機能を持たせるだけでなく、その強いテキストベースのパフォーマンスも維持する。
本手法は,従来のLMよりもはるかに少ないデータを用いて実現し,LM適応中に音声認識された音声入力統合が追加言語として実現可能であることを示す。
コードとモデルをコミュニティに公開しています。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - SparQLe: Speech Queries to Text Translation Through LLMs [0.8901073744693314]
そこで本研究では,自己教師型音声表現と命令調整型LLMを併用して,音声からテキストへの翻訳を行う手法を提案する。
実験により,本手法は入力音声の意味的内容を効果的に保存し,自己教師型音声モデルと命令調整型LLMの効果的なブリッジとして機能することが示された。
論文 参考訳(メタデータ) (2025-02-13T12:57:15Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data [30.966072545451183]
本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。
我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。