論文の概要: Scaling Analysis of Interleaved Speech-Text Language Models
- arxiv url: http://arxiv.org/abs/2504.02398v2
- Date: Sun, 27 Jul 2025 17:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.046665
- Title: Scaling Analysis of Interleaved Speech-Text Language Models
- Title(参考訳): インターリーブ音声テキスト言語モデルのスケーリング解析
- Authors: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi,
- Abstract要約: 既存の音声言語モデル(SLM)のスケーリング分析は、SLMがテキストよりもはるかに多くの計算とデータを必要とすることを予測している。
現代のSLMは、知識伝達を可能にするために、音声テキストインターリーブを用いて事前訓練されたTextLMから初期化されることが多い。
我々は,数ダースをトレーニングし,スケーリングの傾向を分析することで,インターリーブSLMのスケーリング分析を行う。
以上の結果から,大規模化モデルでは先行モデルに匹敵するセマンティック音声性能が得られ,計算量やデータ量が少ないことが示唆された。
- 参考スコア(独自算出の注目度): 22.61336359340435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Speech Language Model (SLM) scaling analysis paints a bleak picture. It predicts that SLMs require much more compute and data compared to text, leading some to question the feasibility of training high-quality SLMs. However, modern SLMs are often initialised from pre-trained TextLMs using speech-text interleaving to allow knowledge transfer. This raises the question - "Do interleaved SLMs scale more efficiently than textless-SLMs?" In this paper we answer a resounding yes! We conduct scaling analysis of interleaved SLMs by training several dozen and analysing the scaling trends. We see that under this setup SLMs scale more efficiently with compute. Additionally, our results indicate that the scaling dynamics significantly differ from textless-SLMs, suggesting one should allocate notably more of the compute budget to increasing model size over training tokens. We also study the role of synthetic data and TextLM model families in unlocking this potential. Results suggest that our scaled up model achieves comparable semantic speech performance to leading models, while using less compute and data. We open source models, samples, and data - https://pages.cs.huji.ac.il/adiyoss-lab/sims/ .
- Abstract(参考訳): 既存の音声言語モデル (SLM) のスケーリング分析は、明暗な絵を描く。
SLMはテキストよりもはるかに多くの計算とデータを必要とすると予測し、高品質のSLMを訓練する可能性に疑問を呈する者もいる。
しかし、現代のSLMは、知識伝達を可能にするために、音声テキストインターリーブを用いて事前訓練されたTextLMから初期化されることが多い。
インターリーブされたSLMは、テキストレスSLMよりも効率的にスケールできるか?
この論文では、答えは「はい!
我々は,数ダースをトレーニングし,スケーリングの傾向を分析することで,インターリーブSLMのスケーリング分析を行う。
この設定下において、SLMは計算によってより効率的にスケールできる。
さらに,本研究の結果から,テキストレスSLMとスケーリングのダイナミクスが著しく異なることが示唆された。
また、この可能性を解き放つ上で、合成データとTextLMモデルファミリーが果たす役割についても検討する。
以上の結果から,大規模化モデルでは先行モデルに匹敵するセマンティック音声性能が得られ,計算量やデータ量が少ないことが示唆された。
https://pages.cs.huji.ac.il/adiyoss-lab/sims/。
関連論文リスト
- Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Slamming: Training a Speech Language Model on One GPU in a Day [20.802090523583196]
Slamは,1つの学術GPU上で,高品質な言語モデル(SLM)を24時間でトレーニングするためのレシピだ。
我々は、このトレーニングレシピが、計算コストのごく一部で主要なSLMと同等の計算結果を得られるようにも、うまくスケールできることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-19T17:21:15Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。
テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文 参考訳(メタデータ) (2024-03-31T13:30:12Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。