論文の概要: What Are They Doing? Joint Audio-Speech Co-Reasoning
- arxiv url: http://arxiv.org/abs/2409.14526v1
- Date: Sun, 22 Sep 2024 16:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:19:40.868605
- Title: What Are They Doing? Joint Audio-Speech Co-Reasoning
- Title(参考訳): 彼らは何をしているのか? 共同音声合成
- Authors: Yingzhi Wang, Pooneh Mousavi, Artem Ploujnikov, Mirco Ravanelli,
- Abstract要約: 最近のAuditory Large Language Models (ALLM)は、単一のモデル内で音声と音声を同時に処理できるようにする。
音声処理と音声処理を統合する新しいタスクであるJASCO(Joint Audio-Speech Co-Reasoning)を導入する。
一般的なALLMの合理化能力を評価するために,共同音声合成ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 10.957451368533302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In audio and speech processing, tasks usually focus on either the audio or speech modality, even when both sounds and human speech are present in the same audio clip. Recent Auditory Large Language Models (ALLMs) have made it possible to process audio and speech simultaneously within a single model, leading to further considerations of joint audio-speech tasks. In this paper, we investigate how well ALLMs can perform joint audio-speech processing. Specifically, we introduce Joint Audio-Speech Co-Reasoning (JASCO), a novel task that unifies audio and speech processing, strictly requiring co-reasoning across both modalities. We release a scene-reasoning dataset called "What Are They Doing" and establish a joint audio-speech benchmark to evaluate the joint reasoning capability of popular ALLMs. Additionally, we provide deeper insights into the models' behaviors by analyzing their dependence on each modality.
- Abstract(参考訳): 音声処理や音声処理では、通常、同じ音声クリップに音声と人間の音声の両方が存在する場合でも、音声または音声のモダリティに焦点が当てられる。
近年のAuditory Large Language Models (ALLMs) により、単一モデル内で音声と音声を同時に処理することが可能となり、共同音声合成タスクのさらなる検討がなされている。
本稿では, ALLMの音声合成処理の精度について検討する。
具体的には、音声処理と音声処理を一体化する新しいタスクであるJoint Audio-Speech Co-Reasoning (JASCO)を導入する。
我々は,"What Are They Doing"と呼ばれるシーン推論データセットを公開し,一般的なALLMの協調推論能力を評価するために,共同音声合成ベンチマークを構築した。
さらに、各モダリティへの依存を分析することにより、モデルの振舞いについてより深い洞察を提供する。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - Joint Audio and Speech Understanding [81.34673662385774]
我々はLTU-ASと呼ばれる機械学習モデルを構築し、概念的に類似した普遍的な音声知覚と高度な推論能力を持つ。
Whisperを知覚モジュールとして、LLaMAを推論モジュールとして統合することにより、LTU-ASは音声テキスト、音声パラ言語学、非音声音声イベントを同時に認識し、共同理解することができる。
論文 参考訳(メタデータ) (2023-09-25T17:59:05Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。