論文の概要: SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing
- arxiv url: http://arxiv.org/abs/2601.09385v1
- Date: Wed, 14 Jan 2026 11:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.378838
- Title: SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing
- Title(参考訳): SLAM-LLM: モジュール型オープンソースのマルチモーダル大言語モデルフレームワークと音声・言語・音声・音楽処理のベストプラクティス
- Authors: Ziyang Ma, Guanrou Yang, Wenxi Chen, Zhifu Gao, Yexing Du, Xiquan Li, Zhisheng Zheng, Haina Zhu, Jianheng Zhuo, Zheshu Song, Ruiyang Xu, Tiranrui Wang, Yifan Yang, Yanqiao Zhu, Zhikang Niu, Liumeng Xue, Yinghao Ma, Ruibin Yuan, Shiliang Zhang, Kai Yu, Eng Siong Chng, Xie Chen,
- Abstract要約: SLAM-LLMは、カスタマイズされたマルチモーダル言語モデル(MLLM)をトレーニングするために設計されたオープンソースのフレームワークである。
異なるエンコーダ、プロジェクタ、LCM、パラメータ効率の良い微調整プラグインのモジュール構成を提供する。
これには、ASR(Automatic Speech Recognition)、AAC(Automated Audio Captioning)、MC(Music Captioning)といった高性能なチェックポイントが含まれている。
- 参考スコア(独自算出の注目度): 77.87631792556942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent surge in open-source Multimodal Large Language Models (MLLM) frameworks, such as LLaVA, provides a convenient kickoff for artificial intelligence developers and researchers. However, most of the MLLM frameworks take vision as the main input modality, and provide limited in-depth support for the modality of speech, audio, and music. This situation hinders the development of audio-language models, and forces researchers to spend a lot of effort on code writing and hyperparameter tuning. We present SLAM-LLM, an open-source deep learning framework designed to train customized MLLMs, focused on speech, language, audio, and music processing. SLAM-LLM provides a modular configuration of different encoders, projectors, LLMs, and parameter-efficient fine-tuning plugins. SLAM-LLM also includes detailed training and inference recipes for mainstream tasks, along with high-performance checkpoints like LLM-based Automatic Speech Recognition (ASR), Automated Audio Captioning (AAC), and Music Captioning (MC). Some of these recipes have already reached or are nearing state-of-the-art performance, and some relevant techniques have also been accepted by academic papers. We hope SLAM-LLM will accelerate iteration, development, data engineering, and model training for researchers. We are committed to continually pushing forward audio-based MLLMs through this open-source framework, and call on the community to contribute to the LLM-based speech, audio and music processing.
- Abstract(参考訳): LLaVAのような最近のオープンソースのMultimodal Large Language Models (MLLM)フレームワークの急増は、人工知能開発者や研究者に便利なキックオフを提供する。
しかし、ほとんどのMLLMフレームワークは、視覚を主要な入力モダリティとして捉え、音声、オーディオ、音楽のモダリティの詳細なサポートを提供する。
この状況は、オーディオ言語モデルの開発を妨げるものであり、研究者はコード記述とハイパーパラメータチューニングに多くの時間を費やしている。
本稿では,MLLMを学習するためのオープンソースのディープラーニングフレームワークSLAM-LLMについて述べる。
SLAM-LLMは異なるエンコーダ、プロジェクタ、LCM、パラメータ効率の良い微調整プラグインのモジュール構成を提供する。
SLAM-LLMには、LLMベースの自動音声認識(ASR)、AAC(Automated Audio Captioning)、MC(Music Captioning)といった高性能なチェックポイントとともに、メインストリームタスクのための詳細なトレーニングと推論のレシピも含まれている。
これらのレシピの中には、既に最先端のパフォーマンスに到達または近づいているものもあり、学術論文でもいくつかの関連技術が受け入れられている。
SLAM-LLMは、研究者の反復、開発、データエンジニアリング、モデルトレーニングを加速することを期待しています。
私たちは、このオープンソースフレームワークを通じて、音声ベースのMLLMを継続的に推進し、LLMベースの音声、音声、音楽処理に貢献するようコミュニティに呼びかけています。
関連論文リスト
- FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation [3.8125534288516683]
FastSLMは、長文音声に対する効果的な理解と推論のために設計された軽量で効率的な音声言語モデル(SLM)である。
本稿では,多岐にわたる音声関連タスクの一般化を促進する新しい3段階学習戦略を提案する。
実験結果から,FastSLMは既存の最先端モデルと比較して競争性能が向上することが示された。
論文 参考訳(メタデータ) (2026-01-08T07:46:03Z) - PAL: Probing Audio Encoders via LLMs - Audio Information Transfer into LLMs [29.049167884343998]
大規模言語モデル(LLM)への音声認識の統合は、機械聴取アプリケーションを実現するための新たな研究分野である。
軽量オーディオLLM統合(LAL)の効率的な代替案を提案する。
LALは、LLMの異なるブロックに統合するために、リッチな音声セマンティクスを適切な抽象化レベルでエンコードする。
論文 参考訳(メタデータ) (2025-06-12T07:23:07Z) - VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation [26.34810950257782]
音声大言語モデル(LLM)は、音声処理に顕著な焦点をあてている。
本稿では,スケーラブルでモデルに依存しない学習フレームワークによって実現された,高性能で低レイテンシなLLMであるVocalNet-1BとVocalNet-8Bを紹介する。
我々の貢献の中心は、LLMに対するMTP(Multi-token Prediction)の最初の応用である。
論文 参考訳(メタデータ) (2025-04-05T04:57:12Z) - LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文 参考訳(メタデータ) (2025-03-06T18:59:38Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。