論文の概要: Scaling Analysis of Interleaved Speech-Text Language Models
- arxiv url: http://arxiv.org/abs/2504.02398v1
- Date: Thu, 03 Apr 2025 08:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:31.286284
- Title: Scaling Analysis of Interleaved Speech-Text Language Models
- Title(参考訳): インターリーブ音声テキスト言語モデルのスケーリング解析
- Authors: Gallil Maimon, Michael Hassid, Amit Roth, Yossi Adi,
- Abstract要約: 音声言語モデル(SLM)のスケーリング分析は、SLMがテキストよりもはるかに多くの計算とデータを必要とすることを予測している。
現代のSLMは、知識伝達を可能にするために、音声テキストインターリーブを用いて事前訓練されたTextLMから初期化されることが多い。
我々は,数ダースをトレーニングし,スケーリングの傾向を分析することで,インターリーブSLMのスケーリング分析を行う。
この設定下において、SLMは計算によってより効率的にスケールできる。
- 参考スコア(独自算出の注目度): 22.61336359340435
- License:
- Abstract: Existing Speech Language Model (SLM) scaling analysis paints a bleak picture. They predict that SLMs require much more compute and data compared to text, leading some to question the feasibility of training high-quality SLMs. However, modern SLMs are often initialised from pre-trained TextLMs using speech-text interleaving to allow knowledge transfer. This raises the question - Do interleaved SLMs scale more efficiently than textless-SLMs? In this paper we answer a resounding, yes! We conduct scaling analysis of interleaved SLMs by training several dozen and analysing the scaling trends. We see that under this setup SLMs scale more efficiently with compute. Additionally, our results indicate that the scaling-dynamics are significantly different than textless-SLMs, suggesting one should allocate notably more of the compute budget for increasing model size over training tokens. We also study the role of synthetic data and TextLM model families in unlocking this potential. Results suggest, that our scaled up model achieves comparable performance with leading models on speech semantic metrics while using less compute and data than other approaches. We open source models, samples, and data - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
- Abstract(参考訳): 既存の音声言語モデル (SLM) のスケーリング分析は、明暗な絵を描く。
彼らは、SLMはテキストよりもはるかに多くの計算とデータを必要とすると予測し、高品質のSLMを訓練する可能性に疑問を呈する者もいる。
しかし、現代のSLMは、知識伝達を可能にするために、音声テキストインターリーブを用いて事前訓練されたTextLMから初期化されることが多い。
インターリーブされたSLMは、テキストレスSLMよりも効率的にスケールできるのか?
この論文では、答えは「はい!
我々は,数ダースをトレーニングし,スケーリングの傾向を分析することで,インターリーブSLMのスケーリング分析を行う。
この設定下において、SLMは計算によってより効率的にスケールできる。
さらに,本研究の結果から,スケーリング力学はテキストレスSLMとは大きく異なることが示唆された。
また、この可能性を解き放つ上で、合成データとTextLMモデルファミリーが果たす役割についても検討する。
その結果,我々のスケールアップモデルは,他の手法よりも少ない計算量とデータを使用しながら,音声セマンティックメトリクスの先行モデルと同等の性能を達成できることが示唆された。
私たちは、モデル、サンプル、データ - https://pages.cs.huji.ac.il/adiyoss-lab/simsをオープンソースにしています。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - MooER: LLM-based Speech Recognition and Translation Models from Moore Threads [13.02816167879662]
MooERはムーアスレッドの大規模自動音声認識(ASR)/自動音声翻訳(AST)モデルである。
オープンソースおよび自己収集音声データを含む5000hの擬似ラベル付きデータセットをトレーニングに使用する。
Covost2 Zh2enテストセットで行った実験は、我々のモデルが他のオープンソースのLLMよりも優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-09T14:43:56Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。
テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文 参考訳(メタデータ) (2024-03-31T13:30:12Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。