論文の概要: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models
- arxiv url: http://arxiv.org/abs/2310.08753v4
- Date: Tue, 30 Jul 2024 18:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 20:47:15.661371
- Title: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models
- Title(参考訳): CompA:音声言語モデルにおける合成推論のギャップに対処する
- Authors: Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha,
- Abstract要約: 提案するCompAは,実世界の音声サンプルの大部分を収録した,専門家による2つのベンチマークのコレクションである。
まず,現在のALMはランダムな確率よりもわずかに優れた性能を示し,構成的推論に苦しむことを示す。
次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
- 参考スコア(独自算出の注目度): 41.98394436858637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental characteristic of audio is its compositional nature. Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP) that learns a shared representation between audio and language modalities have improved performance in many downstream applications, including zero-shot audio classification, audio retrieval, etc. However, the ability of these models to effectively perform compositional reasoning remains largely unexplored and necessitates additional research. In this paper, we propose CompA, a collection of two expert-annotated benchmarks with a majority of real-world audio samples, to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates how well an ALM understands the order or occurrence of acoustic events in audio, and CompA-attribute evaluates attribute-binding of acoustic events. An instance from either benchmark consists of two audio-caption pairs, where both audios have the same acoustic events but with different compositions. An ALM is evaluated on how well it matches the right audio to the right caption. Using this benchmark, we first show that current ALMs perform only marginally better than random chance, thereby struggling with compositional reasoning. Next, we propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to improve its compositional reasoning abilities. To train CompA-CLAP, we first propose improvements to contrastive training with composition-aware hard negatives, allowing for more focused training. Next, we propose a novel modular contrastive loss that helps the model learn fine-grained compositional understanding and overcomes the acute scarcity of openly available compositional audios. CompA-CLAP significantly improves over all our baseline models on the CompA benchmark, indicating its superior compositional reasoning capabilities.
- Abstract(参考訳): 音声の基本的特徴は、その構成的性質である。
音声と言語モダリティの共有表現を学習するコントラストアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。
しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。
本稿では,ALMの合成推論を評価するために,実世界の音声サンプルの大多数を専門家がアノテートした2つのベンチマークの集合であるCompAを提案する。
提案したCompA-orderは、ALMが音声中の音響イベントの順序や発生をいかによく理解しているかを評価し、CompA-attributeは音響イベントの属性結合を評価する。
どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。
ALMは、正しい音声と正しいキャプションとの適合性を評価する。
このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。
次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。
次に,モデルが構成理解の微粒化を学習し,利用可能な構成音声の急激な不足を克服するのに役立つ,新しいモジュール型コントラスト損失を提案する。
CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities [43.23351906406144]
高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM)
GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。
GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
論文 参考訳(メタデータ) (2024-06-17T17:31:01Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。