論文の概要: LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
- arxiv url: http://arxiv.org/abs/2310.04673v3
- Date: Wed, 11 Oct 2023 02:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:48:43.018362
- Title: LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT
- Title(参考訳): LauraGPT: GPTによる聴取、聴取、理解、再生
- Authors: Jiaming Wang, Zhihao Du, Qian Chen, Yunfei Chu, Zhifu Gao, Zerui Li,
Kai Hu, Xiaohuan Zhou, Jin Xu, Ziyang Ma, Wen Wang, Siqi Zheng, Chang Zhou,
Zhijie Yan, Shiliang Zhang
- Abstract要約: LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
- 参考スコア(独自算出の注目度): 67.05155876895515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Pre-trained Transformer (GPT) models have achieved remarkable
performance on various natural language processing tasks. However, there has
been limited research on applying similar frameworks to audio tasks. Previously
proposed large language models for audio tasks either lack sufficient
quantitative evaluations, or are limited to tasks for recognizing and
understanding audio content, or significantly underperform existing
state-of-the-art (SOTA) models. In this paper, we propose LauraGPT, a unified
GPT model for audio recognition, understanding, and generation. LauraGPT is a
versatile language model that can process both audio and text inputs and
generate outputs in either modalities. It can perform a wide range of tasks
related to content, semantics, paralinguistics, and audio-signal analysis. Some
of its noteworthy tasks include automatic speech recognition, speech-to-text
translation, text-to-speech synthesis, machine translation, speech enhancement,
automated audio captioning, speech emotion recognition, and spoken language
understanding. To achieve this goal, we use a combination of continuous and
discrete features for audio. We encode input audio into continuous
representations using an audio encoder and decode output audio from discrete
codec codes. We then fine-tune a large decoder-only Transformer-based language
model on multiple audio-to-text, text-to-audio, audio-to-audio, and
text-to-text tasks using a supervised multitask learning approach. Extensive
experiments show that LauraGPT achieves competitive or superior performance
compared to existing SOTA models on various audio processing benchmarks.
- Abstract(参考訳): Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
しかし、同様のフレームワークをオーディオタスクに適用する研究は限られている。
これまで提案されていた音声タスクの大規模言語モデルは、十分な量的評価を欠くか、音声コンテンツの認識と理解のタスクに限定されるか、あるいは既存の最先端(sota)モデルを大幅に過小評価している。
本稿では,音声認識,理解,生成のための統一GPTモデルであるLauraGPTを提案する。
LauraGPTは、音声入力とテキスト入力の両方を処理し、どちらのモードでも出力を生成できる汎用言語モデルである。
コンテンツ、セマンティクス、パラ言語学、音声信号分析に関する幅広いタスクを実行することができる。
その注目すべきタスクには、自動音声認識、音声対テキスト翻訳、テキスト対音声合成、機械翻訳、音声強調、自動音声キャプション、音声感情認識、音声言語理解などがある。
この目的を達成するために、音声に連続的と離散的な機能を組み合わせる。
入力音声をオーディオエンコーダを用いて連続表現に符号化し、離散コーデック符号から出力音声を復号化する。
次に、教師付きマルチタスク学習アプローチを用いて、複数の音声-テキスト、テキスト-音声、音声-音声、テキスト-テキストタスクに対して、大きなデコーダのみのトランスフォーマベースの言語モデルを微調整する。
広範囲な実験により、lauragptは様々なオーディオ処理ベンチマークで既存のsomaモデルよりも競争力や優れた性能を達成していることが示された。
関連論文リスト
- Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。