論文の概要: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head
- arxiv url: http://arxiv.org/abs/2304.12995v1
- Date: Tue, 25 Apr 2023 17:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-26 19:38:51.920905
- Title: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head
- Title(参考訳): AudioGPT: 音声、音楽、音声、トーキングヘッドの理解と生成
- Authors: Rongjie Huang, Mingze Li, Dongchao Yang, Jiatong Shi, Xuankai Chang,
Zhenhui Ye, Yuning Wu, Zhiqing Hong, Jiawei Huang, Jinglin Liu, Yi Ren, Zhou
Zhao, Shinji Watanabe
- Abstract要約: 大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
- 参考スコア(独自算出の注目度): 82.69233563811487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exhibited remarkable capabilities across a
variety of domains and tasks, challenging our understanding of learning and
cognition. Despite the recent success, current LLMs are not capable of
processing complex audio information or conducting spoken conversations (like
Siri or Alexa). In this work, we propose a multi-modal AI system named
AudioGPT, which complements LLMs (i.e., ChatGPT) with 1) foundation models to
process complex audio information and solve numerous understanding and
generation tasks; and 2) the input/output interface (ASR, TTS) to support
spoken dialogue. With an increasing demand to evaluate multi-modal LLMs of
human intention understanding and cooperation with foundation models, we
outline the principles and processes and test AudioGPT in terms of consistency,
capability, and robustness. Experimental results demonstrate the capabilities
of AudioGPT in solving AI tasks with speech, music, sound, and talking head
understanding and generation in multi-round dialogues, which empower humans to
create rich and diverse audio content with unprecedented ease. Our system is
publicly available at \url{https://github.com/AIGC-Audio/AudioGPT}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
最近の成功にもかかわらず、現在のLLMは複雑なオーディオ情報を処理したり、(SiriやAlexaのような)会話を行うことができない。
本研究では,LLM(すなわちChatGPT)を補完するマルチモーダルAIシステムであるAudioGPTを提案する。
1)複雑な音声情報を処理し、多数の理解・生成課題を解決する基礎モデル
2)音声対話を支援するための入力/出力インタフェース(ASR, TTS)。
人間の意図的理解と基礎モデルとの協調によるマルチモーダルLLMの評価の必要性が高まる中、我々はAudioGPTの原則とプロセスの概要を一貫性、能力、堅牢性の観点から検証する。
実験の結果,複数回対話における音声,音楽,音声,会話の頭部理解と生成によるai課題の解決におけるaudiogptの能力が実証された。
本システムは,<url{https://github.com/AIGC-Audio/AudioGPT}で公開されている。
関連論文リスト
- Step-Audio 2 Technical Report [108.04129284951314]
Step-Audio 2は、業界における音声理解と音声会話のために設計された、エンドツーエンドのマルチモーダルな大規模言語モデルである。
遅延オーディオエンコーダと推論中心強化学習(RL)を統合することにより、Step-Audio 2は自動音声認識(ASR)および音声理解において有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-22T14:23:55Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。
我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。
以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T23:46:01Z) - SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。
SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文 参考訳(メタデータ) (2024-11-27T08:38:57Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - What Are They Doing? Joint Audio-Speech Co-Reasoning [10.957451368533302]
最近のAuditory Large Language Models (ALLM)は、単一のモデル内で音声と音声を同時に処理できるようにする。
音声処理と音声処理を統合する新しいタスクであるJASCO(Joint Audio-Speech Co-Reasoning)を導入する。
一般的なALLMの合理化能力を評価するために,共同音声合成ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-09-22T16:45:57Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities [43.23351906406144]
高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM)
GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
論文 参考訳(メタデータ) (2024-06-17T17:31:01Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - SALMONN: Towards Generic Hearing Abilities for Large Language Models [24.73033723114979]
音声音声言語音楽オープンニューラルネットワークSALMONNを提案する。
事前訓練されたテキストベースの大規模言語モデル(LLM)と音声および音声エンコーダを単一のマルチモーダルモデルに統合することによって構築される。
これは、そのタイプの最初のモデルであり、汎用的な聴覚能力を持つAIへのステップと見なすことができる。
論文 参考訳(メタデータ) (2023-10-20T05:41:57Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。