論文の概要: LLaSM: Large Language and Speech Model
- arxiv url: http://arxiv.org/abs/2308.15930v3
- Date: Sat, 16 Sep 2023 06:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:15:46.813863
- Title: LLaSM: Large Language and Speech Model
- Title(参考訳): LLaSM:大規模言語と音声モデル
- Authors: Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen
Shi, Qiqi Xiang, Yemin Shi
- Abstract要約: 大言語・音声モデル(Large Language and Speech Model, LLaSM)は、多モーダル言語モデルである。
初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
- 参考スコア(独自算出の注目度): 11.885798177819114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models have garnered significant interest
recently. Though, most of the works focus on vision-language multi-modal models
providing strong capabilities in following vision-and-language instructions.
However, we claim that speech is also an important modality through which
humans interact with the world. Hence, it is crucial for a general-purpose
assistant to be able to follow multi-modal speech-and-language instructions. In
this work, we propose Large Language and Speech Model (LLaSM). LLaSM is an
end-to-end trained large multi-modal speech-language model with cross-modal
conversational abilities, capable of following speech-and-language
instructions. Our early experiments show that LLaSM demonstrates a more
convenient and natural way for humans to interact with artificial intelligence.
Specifically, we also release a large Speech Instruction Following dataset
LLaSM-Audio-Instructions. Code and demo are available at
https://github.com/LinkSoul-AI/LLaSM and
https://huggingface.co/spaces/LinkSoul/LLaSM. The LLaSM-Audio-Instructions
dataset is available at
https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
- Abstract(参考訳): 近年,マルチモーダル大規模言語モデルが注目されている。
しかし、ほとんどの作品は視覚言語のマルチモーダルモデルに焦点を合わせており、視覚と言語命令に従う強力な能力を提供している。
しかし、音声は人間が世界と相互作用する重要なモダリティでもあると主張する。
したがって、汎用アシスタントがマルチモーダル音声・言語指示を追従できることは不可欠である。
本研究では,Large Language and Speech Model (LLaSM)を提案する。
LLaSMは、多モーダルな多モーダル言語モデルで、多モーダルな会話能力を持ち、音声と音声の指示に従うことができる。
初期の実験では、LLaSMは人間が人工知能と対話するより便利で自然な方法を示している。
具体的には,LLaSM-Audio-Instructionsデータセットを大規模にリリースする。
コードとデモはhttps://github.com/LinkSoul-AI/LLaSMとhttps://huggingface.co/spaces/LinkSoul/LLaSMで公開されている。
LLaSM-Audio-Instructionsデータセットはhttps://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructionsで公開されている。
関連論文リスト
- Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。
包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - LLaMA-Omni: Seamless Speech Interaction with Large Language Models [43.28912243888652]
LLaMA-Omniは、大規模言語モデルとの低レイテンシで高品質な音声インタラクションのために設計された新しいモデルアーキテクチャである。
事前訓練された音声エンコーダ、音声適応器、LLM、ストリーミング音声デコーダを統合する。
レスポンスレイテンシは226ms以下で、コンテンツとスタイルの両方でより優れたレスポンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T17:34:34Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal
Conversational Abilities [39.07096632751864]
SpeechGPTは、固有のクロスモーダルな会話能力を持つ大きな言語モデルである。
我々は、モダリティ適応事前訓練、クロスモーダル命令微調整、チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用する。
論文 参考訳(メタデータ) (2023-05-18T14:23:25Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。