論文の概要: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
- arxiv url: http://arxiv.org/abs/2406.11768v1
- Date: Mon, 17 Jun 2024 17:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:33:44.802572
- Title: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
- Title(参考訳): GAMA:高度な音声理解と複雑な推論能力を備えた大規模オーディオ言語モデル
- Authors: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha,
- Abstract要約: 高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM)
GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
- 参考スコア(独自算出の注目度): 43.23351906406144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.
- Abstract(参考訳): 非音声音声と非言語音声の知覚と理解は、環境と対話するための意思決定に不可欠である。
本稿では,高度な音声理解と複雑な推論能力を備えたGAMA(General-purpose Large Audio-Language Model: LALM)を提案する。
オーディオエンコーダの複数の層から特徴を集約する多層アグリゲータであるAudio Q-Former の機能を含む,複数のタイプのオーディオ表現と LLM を統合して GAMA を構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
次に,提案するCompA-R(Instruction-Tuning for Complex Audio Reasoning)を提案する。
我々はCompA-RでGAMAに複雑な推論能力を与えるよう指示し、入力音声のイベントタグを利用して、高いレベルのセマンティックエビデンスを入力としてソフトプロンプトを追加する。
最後に、複雑な推論を必要とするオープンエンド音声質問応答におけるLALMの能力を評価するための人間ラベル評価データセットであるCompA-R-testを提案する。
自動的・専門的な人的評価を通じて,GAMAは様々な音声理解タスクにおいて,他のLALMよりも1%~84%向上していることを示す。
さらに、CompA-R 上の GAMA IT 編集は複雑な推論と命令追従能力に優れていることを証明している。
関連論文リスト
- Audio Captioning via Generative Pair-to-Pair Retrieval with Refined Knowledge Base [0.0]
Retrieval-Augmented Generation (RAG)は、知識ベースから音声テキストペアを検索し、クエリオーディオで拡張し、正確なテキスト応答を生成する。
生成したキャプションをテキストクエリとして使用して,関連する音声テキストペアを正確に検索する生成ペア対検索を提案する。
提案手法は,AudioCaps,Clotho,Auto-ACDといったベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-10-14T04:57:32Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
大規模音声言語モデルの出現により,音声質問応答が注目されている。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。