論文の概要: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
- arxiv url: http://arxiv.org/abs/2406.11768v1
- Date: Mon, 17 Jun 2024 17:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:33:44.802572
- Title: GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities
- Title(参考訳): GAMA:高度な音声理解と複雑な推論能力を備えた大規模オーディオ言語モデル
- Authors: Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha,
- Abstract要約: 高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM)
GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
- 参考スコア(独自算出の注目度): 43.23351906406144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceiving and understanding non-speech sounds and non-verbal speech is essential to making decisions that help us interact with our surroundings. In this paper, we propose GAMA, a novel General-purpose Large Audio-Language Model (LALM) with Advanced Audio Understanding and Complex Reasoning Abilities. We build GAMA by integrating an LLM with multiple types of audio representations, including features from a custom Audio Q-Former, a multi-layer aggregator that aggregates features from multiple layers of an audio encoder. We fine-tune GAMA on a large-scale audio-language dataset, which augments it with audio understanding capabilities. Next, we propose CompA-R (Instruction-Tuning for Complex Audio Reasoning), a synthetically generated instruction-tuning (IT) dataset with instructions that require the model to perform complex reasoning on the input audio. We instruction-tune GAMA with CompA-R to endow it with complex reasoning abilities, where we further add a soft prompt as input with high-level semantic evidence by leveraging event tags of the input audio. Finally, we also propose CompA-R-test, a human-labeled evaluation dataset for evaluating the capabilities of LALMs on open-ended audio question-answering that requires complex reasoning. Through automated and expert human evaluations, we show that GAMA outperforms all other LALMs in literature on diverse audio understanding tasks by margins of 1%-84%. Further, GAMA IT-ed on CompA-R proves to be superior in its complex reasoning and instruction following capabilities.
- Abstract(参考訳): 非音声音声と非言語音声の知覚と理解は、環境と対話するための意思決定に不可欠である。
本稿では,高度な音声理解と複雑な推論能力を備えたGAMA(General-purpose Large Audio-Language Model: LALM)を提案する。
オーディオエンコーダの複数の層から特徴を集約する多層アグリゲータであるAudio Q-Former の機能を含む,複数のタイプのオーディオ表現と LLM を統合して GAMA を構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
次に,提案するCompA-R(Instruction-Tuning for Complex Audio Reasoning)を提案する。
我々はCompA-RでGAMAに複雑な推論能力を与えるよう指示し、入力音声のイベントタグを利用して、高いレベルのセマンティックエビデンスを入力としてソフトプロンプトを追加する。
最後に、複雑な推論を必要とするオープンエンド音声質問応答におけるLALMの能力を評価するための人間ラベル評価データセットであるCompA-R-testを提案する。
自動的・専門的な人的評価を通じて,GAMAは様々な音声理解タスクにおいて,他のLALMよりも1%~84%向上していることを示す。
さらに、CompA-R 上の GAMA IT 編集は複雑な推論と命令追従能力に優れていることを証明している。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension [98.69691822391069]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models [44.120567622189036]
提案するCompAは,実世界の音声サンプルの大部分を収録した,専門家による2つのベンチマークのコレクションである。
まず,現在のALMはランダムな確率よりもわずかに優れた性能を示し,構成的推論に苦しむことを示す。
次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
論文 参考訳(メタデータ) (2023-10-12T22:43:38Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。