論文の概要: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language
Models
- arxiv url: http://arxiv.org/abs/2310.08753v1
- Date: Thu, 12 Oct 2023 22:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:11:14.496508
- Title: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language
Models
- Title(参考訳): CompA:音声言語モデルにおける合成推論のギャップに対処する
- Authors: Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran
Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh
Manocha
- Abstract要約: 提案するCompAは,実世界の音声サンプルの大部分を収録した,専門家による2つのベンチマークのコレクションである。
現在のALMは、ランダムな確率よりもわずかに優れた性能を示す。
次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
- 参考スコア(独自算出の注目度): 43.23351906406144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental characteristic of audio is its compositional nature.
Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP)
that learns a shared representation between audio and language modalities have
improved performance in many downstream applications, including zero-shot audio
classification, audio retrieval, etc. However, the ability of these models to
effectively perform compositional reasoning remains largely unexplored and
necessitates additional research. In this paper, we propose CompA, a collection
of two expert-annotated benchmarks with a majority of real-world audio samples,
to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates
how well an ALM understands the order or occurrence of acoustic events in
audio, and CompA-attribute evaluates attribute binding of acoustic events. An
instance from either benchmark consists of two audio-caption pairs, where both
audios have the same acoustic events but with different compositions. An ALM is
evaluated on how well it matches the right audio to the right caption. Using
this benchmark, we first show that current ALMs perform only marginally better
than random chance, thereby struggling with compositional reasoning. Next, we
propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to
improve its compositional reasoning abilities. To train CompA-CLAP, we first
propose improvements to contrastive training with composition-aware hard
negatives, allowing for more focused training. Next, we propose a novel modular
contrastive loss that helps the model learn fine-grained compositional
understanding and overcomes the acute scarcity of openly available
compositional audios. CompA-CLAP significantly improves over all our baseline
models on the CompA benchmark, indicating its superior compositional reasoning
capabilities.
- Abstract(参考訳): 音声の基本的特徴は、その構成的性質である。
音声と言語モダリティの共有表現を学習する対照的なアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。
しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。
本稿では,実世界の音声サンプルの多数を占める2つの専門家によるベンチマークを収集し,almの構成的推論を評価するcompaを提案する。
提案するcompa-orderは, almが音響イベントの順序や発生をいかによく理解しているかを評価し, compa-attributeは音響イベントの属性結合を評価する。
どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。
ALMは、正しい音声と正しいキャプションとの適合性を評価する。
このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。
次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。
次に, モデルがきめ細かな構成理解を学習し, 公開合成音声の急激な不足を克服する, モジュラーコントラストロスを提案する。
CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。
関連論文リスト
- AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised
Pretraining [47.76088896518772]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Interactive Audio-text Representation for Automated Audio Captioning
with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。
提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。
また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文 参考訳(メタデータ) (2022-03-29T13:06:46Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。