論文の概要: Qwen2-Audio Technical Report
- arxiv url: http://arxiv.org/abs/2407.10759v1
- Date: Mon, 15 Jul 2024 14:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 14:51:56.380902
- Title: Qwen2-Audio Technical Report
- Title(参考訳): Qwen2-Audioテクニカルレポート
- Authors: Yunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou,
- Abstract要約: 本稿では,Qwen2-Audioと呼ばれる大規模オーディオ言語モデルであるQwen-Audioの最新動向を紹介する。
Qwen2-Audioは、様々な音声信号入力を受け入れ、音声解析や音声指示に対する直接テキスト応答を行うことができる。
我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
- 参考スコア(独自算出の注目度): 73.94975476533989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the latest progress of Qwen-Audio, a large-scale audio-language model called Qwen2-Audio, which is capable of accepting various audio signal inputs and performing audio analysis or direct textual responses with regard to speech instructions. In contrast to complex hierarchical tags, we have simplified the pre-training process by utilizing natural language prompts for different data and tasks, and have further expanded the data volume. We have boosted the instruction-following capability of Qwen2-Audio and implemented two distinct audio interaction modes for voice chat and audio analysis. In the voice chat mode, users can freely engage in voice interactions with Qwen2-Audio without text input. In the audio analysis mode, users could provide audio and text instructions for analysis during the interaction. Note that we do not use any system prompts to switch between voice chat and audio analysis modes. Qwen2-Audio is capable of intelligently comprehending the content within audio and following voice commands to respond appropriately. For instance, in an audio segment that simultaneously contains sounds, multi-speaker conversations, and a voice command, Qwen2-Audio can directly understand the command and provide an interpretation and response to the audio. Additionally, DPO has optimized the model's performance in terms of factuality and adherence to desired behavior. According to the evaluation results from AIR-Bench, Qwen2-Audio outperformed previous SOTAs, such as Gemini-1.5-pro, in tests focused on audio-centric instruction-following capabilities. Qwen2-Audio is open-sourced with the aim of fostering the advancement of the multi-modal language community.
- Abstract(参考訳): 本稿では,Qwen2-Audioと呼ばれる大規模音声言語モデルの最新の進歩を紹介する。
複雑な階層タグとは対照的に、異なるデータやタスクに対して自然言語プロンプトを利用することで事前学習プロセスを簡素化し、さらにデータ量を拡大した。
我々はQwen2-Audioの指示追従能力を高め、音声チャットと音声分析のための2つの異なる音声対話モードを実装した。
音声チャットモードでは、ユーザーはテキスト入力なしでQwen2-Audioと自由に音声対話を行うことができる。
音声分析モードでは、ユーザは対話中に分析するための音声とテキストの指示を提供することができる。
音声チャットと音声分析モードを切り替えるシステムプロンプトは一切使用していません。
Qwen2-Audioは、音声中のコンテンツをインテリジェントに理解し、音声コマンドに従って適切な応答を行うことができる。
例えば、音声、複数話者会話、音声コマンドを同時に含む音声セグメントでは、Qwen2-Audioはコマンドを直接理解し、音声に対する解釈と応答を提供する。
さらに、DPOは、望ましい振る舞いに対する事実性と順守の観点から、モデルの性能を最適化した。
AIR-Benchの評価結果によると、Qwen2-Audioは、オーディオ中心の命令追従機能に焦点を当てたテストにおいて、Gemini-1.5-proのような以前のSOTAよりも優れていた。
Qwen2-Audioはマルチモーダル言語コミュニティの発展を促進する目的でオープンソース化されている。
関連論文リスト
- AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - VoiceLDM: Text-to-Speech with Environmental Context [22.29992463094861]
VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-24T15:20:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。