論文の概要: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head
- arxiv url: http://arxiv.org/abs/2304.12995v1
- Date: Tue, 25 Apr 2023 17:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 19:38:51.920905
- Title: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head
- Title(参考訳): AudioGPT: 音声、音楽、音声、トーキングヘッドの理解と生成
- Authors: Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang,
Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou
Zhao, Shinji Watanabe
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
- 参考スコア(独自算出の注目度): 82.69233563811487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities across a
variety of domains and tasks, challenging our understanding of learning and
cognition. Despite the recent success, current LLMs are not capable of
processing complex audio information or conducting spoken conversations (like
Siri or Alexa). In this work, we propose a multi-modal AI system named
AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to
process complex audio information and solve numerous understanding and
generation tasks; and 2) the input/output interface (ASR, TTS) to support
spoken dialogue. With an increasing demand to evaluate multi-modal LLMs of
human intention understanding and cooperation with foundation models, we
outline the principles and processes and test AudioGPT in terms of consistency,
capability, and robustness. Experimental results demonstrate the capabilities
of AudioGPT in solving AI tasks with speech, music, sound, and talking head
understanding and generation in multi-round dialogues, which empower humans to
create rich and diverse audio content with unprecedented ease. Our system is
publicly available at \url{https://github.com/AIGC-Audio/AudioGPT}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
最近の成功にもかかわらず、現在のLLMは複雑なオーディオ情報を処理したり、(SiriやAlexaのような)会話を行うことができない。
本研究では,LLM(すなわちChatGPT)を補完するマルチモーダルAIシステムであるAudioGPTを提案する。
1)複雑な音声情報を処理し、多数の理解・生成課題を解決する基礎モデル
2)音声対話を支援するための入力/出力インタフェース(ASR, TTS)。
人間の意図的理解と基礎モデルとの協調によるマルチモーダルLLMの評価の必要性が高まる中、我々はAudioGPTの原則とプロセスの概要を一貫性、能力、堅牢性の観点から検証する。
実験の結果,複数回対話における音声,音楽,音声,会話の頭部理解と生成によるai課題の解決におけるaudiogptの能力が実証された。
本システムは,<url{https://github.com/AIGC-Audio/AudioGPT}で公開されている。
関連論文リスト
- Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and
Dialogue Abilities [39.228201276729266]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本研究では,(1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [25.660343393359565]
本研究では,音声および音声エンコーダのテキストベース大言語モデル(LLM)を単一のマルチモーダルモデルに統合して構築した音声音声言語音楽オープンニューラルネットワークであるSALMONNを提案する。
SALMONNは訓練で見つからない多様な創発能力を持っているが、訓練されていない言語への音声翻訳に限らない。
SALMONNのインタラクティブなデモは texttturlhttps://github.com/bytedance/SALMONN で公開されている。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Joint Audio and Speech Understanding [81.34673662385774]
我々はLTU-ASと呼ばれる機械学習モデルを構築し、概念的に類似した普遍的な音声知覚と高度な推論能力を持つ。
Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。
論文 参考訳(メタデータ) (2023-09-25T17:59:05Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。