論文の概要: Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models
- arxiv url: http://arxiv.org/abs/2311.07919v2
- Date: Thu, 21 Dec 2023 10:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:59:19.040048
- Title: Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models
- Title(参考訳): Qwen-Audio: 大規模音声言語モデルによるユニバーサル音声理解の促進
- Authors: Yunfei Chu, Jin Xu, Xiaohuan Zhou, Qian Yang, Shiliang Zhang, Zhijie
Yan, Chang Zhou, Jingren Zhou
- Abstract要約: 我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
- 参考スコア(独自算出の注目度): 98.34889301515412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, instruction-following audio-language models have received broad
attention for audio interaction with humans. However, the absence of
pre-trained audio models capable of handling diverse audio types and tasks has
hindered progress in this field. Consequently, most existing works have only
been able to support a limited range of interaction capabilities. In this
paper, we develop the Qwen-Audio model and address this limitation by scaling
up audio-language pre-training to cover over 30 tasks and various audio types,
such as human speech, natural sounds, music, and songs, to facilitate universal
audio understanding abilities. However, directly co-training all tasks and
datasets can lead to interference issues, as the textual labels associated with
different datasets exhibit considerable variations due to differences in task
focus, language, granularity of annotation, and text structure. To overcome the
one-to-many interference, we carefully design a multi-task training framework
by conditioning on a sequence of hierarchical tags to the decoder for
encouraging knowledge sharing and avoiding interference through shared and
specified tags respectively. Remarkably, Qwen-Audio achieves impressive
performance across diverse benchmark tasks without requiring any task-specific
fine-tuning, surpassing its counterparts. Building upon the capabilities of
Qwen-Audio, we further develop Qwen-Audio-Chat, which allows for input from
various audios and text inputs, enabling multi-turn dialogues and supporting
various audio-central scenarios.
- Abstract(参考訳): 近年,指示追従型音声言語モデルは人間との音声対話に広く注目を集めている。
しかし、多様なオーディオタイプやタスクを扱える事前訓練されたオーディオモデルがないため、この分野の進歩は妨げられている。
その結果、既存の作品のほとんどは限られた範囲の対話機能しかサポートできなかった。
本稿では,Qwen-Audioモデルを開発し,この制限に対処するために,30以上のタスクや人間の音声,自然音,音楽,歌など,さまざまなオーディオタイプをカバーするために,音声事前学習をスケールアップし,普遍的な音声理解能力を促進する。
しかし、タスクフォーカス、言語、アノテーションの粒度、テキスト構造の違いにより、異なるデータセットに関連付けられたテキストラベルにかなりのバリエーションがあるため、すべてのタスクとデータセットを直接コトレーニングすることは干渉問題を引き起こす可能性がある。
1対1の干渉を克服するために,階層タグのシーケンスをデコーダに条件付けし,知識共有を促進し,共有タグと指定タグによる干渉を回避することにより,マルチタスクトレーニングフレームワークを慎重に設計する。
驚くべきことに、qwen-audioはタスク固有の微調整を必要とせず、様々なベンチマークタスクで印象的なパフォーマンスを実現している。
qwen-audioの機能に基づいて、さまざまなオーディオとテキスト入力からの入力を可能にし、マルチターン対話を可能にし、さまざまなオーディオ中心シナリオをサポートするqwen-audio-chatをさらに開発する。
関連論文リスト
- SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning [43.71388370559826]
本稿では,話者と韻律情報の理解を高めるために,複数話者の発話スタイルのキャプションタスクを提案する。
大規模言語モデルを用いて、多話者音声の記述を生成する。
このキャプションタスクで事前学習を行い,指導訓練を行った。
論文 参考訳(メタデータ) (2024-08-25T17:05:26Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。