論文の概要: SALMONN: Towards Generic Hearing Abilities for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13289v1
- Date: Fri, 20 Oct 2023 05:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:15:54.395813
- Title: SALMONN: Towards Generic Hearing Abilities for Large Language Models
- Title(参考訳): SALMONN:大規模言語モデルのためのジェネリック聴覚能力を目指して
- Authors: Changli Tang and Wenyi Yu and Guangzhi Sun and Xianzhao Chen and Tian
Tan and Wei Li and Lu Lu and Zejun Ma and Chao Zhang
- Abstract要約: 本研究では,音声および音声エンコーダのテキストベース大言語モデル(LLM)を単一のマルチモーダルモデルに統合して構築した音声音声言語音楽オープンニューラルネットワークであるSALMONNを提案する。
SALMONNは訓練で見つからない多様な創発能力を持っているが、訓練されていない言語への音声翻訳に限らない。
SALMONNのインタラクティブなデモは texttturlhttps://github.com/bytedance/SALMONN で公開されている。
- 参考スコア(独自算出の注目度): 25.660343393359565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hearing is arguably an essential ability of artificial intelligence (AI)
agents in the physical world, which refers to the perception and understanding
of general auditory information consisting of at least three types of sounds:
speech, audio events, and music. In this paper, we propose SALMONN, a speech
audio language music open neural network, built by integrating a pre-trained
text-based large language model (LLM) with speech and audio encoders into a
single multimodal model. SALMONN enables the LLM to directly process and
understand general audio inputs and achieve competitive performances on a
number of speech and audio tasks used in training, such as automatic speech
recognition and translation, auditory-information-based question answering,
emotion recognition, speaker verification, and music and audio captioning
\textit{etc.} SALMONN also has a diverse set of emergent abilities unseen in
the training, which includes but is not limited to speech translation to
untrained languages, speech-based slot filling, spoken-query-based question
answering, audio-based storytelling, and speech audio co-reasoning
\textit{etc}. The presence of the cross-modal emergent abilities is studied,
and a novel few-shot activation tuning approach is proposed to activate such
abilities of SALMONN. To our knowledge, SALMONN is the first model of its type
and can be regarded as a step towards AI with generic hearing abilities. An
interactive demo of SALMONN is available at
\texttt{\url{https://github.com/bytedance/SALMONN}}, and the training code and
model checkpoints will be released upon acceptance.
- Abstract(参考訳): 聴覚は、少なくとも3種類の音(音声、音声イベント、音楽)からなる一般的な聴覚情報の知覚と理解を意味する、物理世界における人工知能(ai)エージェントの本質的な能力であることは間違いない。
本稿では,事前訓練されたテキストベース大言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合して構築した,音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
SALMONNは、LLMが一般的な音声入力を直接処理し理解し、自動音声認識や翻訳、聴覚情報に基づく質問応答、感情認識、話者の検証、音楽と音声のキャプションなど、訓練で使用される多くの音声および音声タスクで競合的なパフォーマンスを達成することを可能にする。
SALMONNはまた、訓練中に見つからない多様な創発能力を備えており、訓練されていない言語への音声翻訳、音声ベースのスロットフィリング、音声による問合せ、音声によるストーリーテリング、音声による共同推論などに限定されない。
クロスモーダル創発能力の存在について検討し、SALMONNのこのような能力を活性化するために、新しい数発のアクティベーションチューニング手法を提案する。
我々の知る限り、SALMONNはそのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへの一歩と見なすことができる。
SALMONNのインタラクティブなデモは、texttt{\url{https://github.com/bytedance/SALMONN}}で公開されている。
関連論文リスト
- FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM [19.36630667212398]
本稿では,事前学習された大規模言語モデル(LLM)を適応させて,音声質問応答(QA)と音声継続を行う新しいアプローチであるSpectronを提案する。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
提案手法は話者保存とセマンティック・コヒーレンスにおいて既存の言語モデルを上回る。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。