論文の概要: LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
- arxiv url: http://arxiv.org/abs/2508.15418v1
- Date: Thu, 21 Aug 2025 10:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.276378
- Title: LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
- Title(参考訳): LLaSO:大規模言語と音声モデルにおける再現可能な研究のための基礎的フレームワーク
- Authors: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen,
- Abstract要約: LLaSOは、大規模音声言語モデリングのための、最初の完全にオープンなエンドツーエンドフレームワークである。
LLaSOは、12Mインスタンスの音声テキストアライメントコーパスであるLLaSO-Alignと、13.5Mインスタンスのマルチタスク命令チューニングデータセットであるLLaSO-Instructと、標準化された評価のための再現可能なベンチマークであるLLaSO-Evalの3つの重要なリソースをコミュニティに提供する。
LLaSOは、データ、ベンチマーク、モデルの全スタックをリリースすることによって、研究活動を統一し、LSにおけるコミュニティ主導の進歩を加速するための基礎的なオープンスタンダードを確立する。
- 参考スコア(独自算出の注目度): 9.857195650438966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language modeling. LLaSO provides the community with three essential resources: (1) LLaSO-Align, a 12M-instance speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for standardized evaluation. To validate our framework, we build and release LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public data. It achieves a normalized score of 0.72, establishing a strong, reproducible baseline that surpasses comparable models. Our analysis reveals that while broader training coverage enhances performance, significant generalization gaps persist on unseen tasks, particularly in pure audio scenarios. By releasing the complete stack of data, benchmarks, and models, LLaSO establishes a foundational open standard to unify research efforts and accelerate community-driven progress in LSLMs. We release the code, dataset, pretrained models, and results in https://github.com/EIT-NLP/LLaSO.
- Abstract(参考訳): LSLM(Large Speech-Language Models)の開発は、断片化されたアーキテクチャと透明性の欠如によって遅くなり、研究の体系的な比較と再現性が妨げられている。
視覚言語ドメインとは異なり、LSLMフィールドは、対応するトレーニングデータや構成なしでモデルウェイトをリリースするという一般的なプラクティスに悩まされている。
これらの重要なギャップに対処するため、LLaSOは大規模音声言語モデリングのための、最初の完全にオープンなエンドツーエンドフレームワークである。
LLaSOは、(1)LLaSO-Align、(2)LLaSO-Instruct、13.5Mのマルチタスク命令チューニングデータセット、(3)LLaSO-Eval、標準評価のための再現可能なベンチマークの3つの重要なリソースをコミュニティに提供する。
LLaSO-Baseは3.8Bパラメータの参照モデルで、当社の公開データのみにトレーニングされています。
正規化スコア0.72を達成し、同等のモデルを超える強力な再現可能なベースラインを確立する。
我々の分析では、より広範なトレーニングカバレッジはパフォーマンスを向上させるが、特に純粋なオーディオシナリオにおいて、目に見えないタスクに顕著な一般化ギャップが持続することが明らかになった。
LLaSOは、データ、ベンチマーク、モデルの完全なスタックをリリースすることによって、研究活動の統合とLSLMにおけるコミュニティ主導の進歩を加速するための基礎的なオープンスタンダードを確立します。
コード、データセット、事前トレーニングされたモデル、その結果はhttps://github.com/EIT-NLP/LLaSO.orgで公開しています。
関連論文リスト
- TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - Ziya2: Data-centric Learning is All LLMs Need [41.44909548662012]
基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案する。
実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-06T17:49:34Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Chain-of-Thought Hub: A Continuous Effort to Measure Large Language
Models' Reasoning Performance [35.38549845444575]
Chain-of-Thought Hubは、大規模な言語モデルの多段階推論機能に関するオープンソースの評価スイートである。
提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。
論文 参考訳(メタデータ) (2023-05-26T23:46:42Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。