Fugu-MT 論文翻訳(概要): CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models

論文の概要: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models

arxiv url: http://arxiv.org/abs/2310.08753v1
Date: Thu, 12 Oct 2023 22:43:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 15:11:14.496508
Title: CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models
Title（参考訳）: CompA:音声言語モデルにおける合成推論のギャップに対処する
Authors: Sreyan Ghosh, Ashish Seth, Sonal Kumar, Utkarsh Tyagi, Chandra Kiran Evuru, S. Ramaneswaran, S. Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha
Abstract要約: 提案するCompAは,実世界の音声サンプルの大部分を収録した,専門家による2つのベンチマークのコレクションである。現在のALMは、ランダムな確率よりもわずかに優れた性能を示す。次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
参考スコア（独自算出の注目度）: 43.23351906406144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A fundamental characteristic of audio is its compositional nature. Audio-language models (ALMs) trained using a contrastive approach (e.g., CLAP) that learns a shared representation between audio and language modalities have improved performance in many downstream applications, including zero-shot audio classification, audio retrieval, etc. However, the ability of these models to effectively perform compositional reasoning remains largely unexplored and necessitates additional research. In this paper, we propose CompA, a collection of two expert-annotated benchmarks with a majority of real-world audio samples, to evaluate compositional reasoning in ALMs. Our proposed CompA-order evaluates how well an ALM understands the order or occurrence of acoustic events in audio, and CompA-attribute evaluates attribute binding of acoustic events. An instance from either benchmark consists of two audio-caption pairs, where both audios have the same acoustic events but with different compositions. An ALM is evaluated on how well it matches the right audio to the right caption. Using this benchmark, we first show that current ALMs perform only marginally better than random chance, thereby struggling with compositional reasoning. Next, we propose CompA-CLAP, where we fine-tune CLAP using a novel learning method to improve its compositional reasoning abilities. To train CompA-CLAP, we first propose improvements to contrastive training with composition-aware hard negatives, allowing for more focused training. Next, we propose a novel modular contrastive loss that helps the model learn fine-grained compositional understanding and overcomes the acute scarcity of openly available compositional audios. CompA-CLAP significantly improves over all our baseline models on the CompA benchmark, indicating its superior compositional reasoning capabilities.
Abstract（参考訳）: 音声の基本的特徴は、その構成的性質である。音声と言語モダリティの共有表現を学習する対照的なアプローチ(例えばCLAP)を用いて訓練された音声言語モデル(ALM)は、ゼロショット音声分類や音声検索など、多くのダウンストリームアプリケーションの性能を改善した。しかし、これらのモデルが構成的推論を効果的に行う能力はほとんど探索されておらず、さらなる研究が必要である。本稿では,実世界の音声サンプルの多数を占める2つの専門家によるベンチマークを収集し,almの構成的推論を評価するcompaを提案する。提案するcompa-orderは, almが音響イベントの順序や発生をいかによく理解しているかを評価し, compa-attributeは音響イベントの属性結合を評価する。どちらのベンチマークからも、両方のオーディオが同じ音響イベントを持つが、異なる構成を持つ2つのオーディオキャプションペアで構成されている。 ALMは、正しい音声と正しいキャプションとの適合性を評価する。このベンチマークを用いて、現在のALMはランダムな確率よりもわずかに優れた性能を示し、構成的推論に苦慮している。次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。 CompA-CLAPをトレーニングするために、コンポジション対応のハードネガティブによるコントラストトレーニングの改善を提案し、より集中的なトレーニングを可能にした。次に, モデルがきめ細かな構成理解を学習し, 公開合成音声の急激な不足を克服する, モジュラーコントラストロスを提案する。 CompA-CLAPは、CompAベンチマークのすべてのベースラインモデルよりも大幅に改善され、その優れた構成推論能力を示している。

関連論文リスト

Eureka-Audio: Triggering Audio Intelligence in Compact Language Models [28.38037427018435]
Eureka-Audioはコンパクトで高性能なオーディオ言語モデルであり,大規模モデルに対する競合性能を実現する。 Eureka-Audioは1.7Bパラメータしか含まないが、自動音声認識(ASR)、音声理解、高密度音声キャプションに強い性能を示す。パラ言語推論をさらに強化するために,閉ループ音声命令データ合成と検証パイプラインであるDataFluxを導入する。
論文参考訳（メタデータ） (2026-02-15T02:01:08Z)
Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文参考訳（メタデータ） (2025-05-02T13:30:19Z)
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [95.45204813682885]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文参考訳（メタデータ） (2025-03-04T06:18:34Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文参考訳（メタデータ） (2024-08-17T18:53:17Z)
GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities [43.23351906406144]
高度な音声理解と複雑な推論能力を備えた汎用大規模音声言語モデル(LALM) GAMAは、カスタムオーディオQ-Formerの機能を含む複数の種類の音声表現とLLMを統合して構築する。 GAMAを大規模オーディオ言語データセットで微調整し、音声理解機能で拡張します。
論文参考訳（メタデータ） (2024-06-17T17:31:01Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
Continual Learning for On-Device Speech Recognition using Disentangled Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2022-12-02T18:58:51Z)
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning [25.06635361326706]
インタラクティブなモダリティ表現を学習するための,CLIP-AACと呼ばれる新しいAACシステムを提案する。提案するCLIP-AACでは,事前学習エンコーダにオーディオヘッドとテキストヘッドを導入し,音声テキスト情報を抽出する。また、音声信号と2つの字幕の対応を学習することで、ドメイン差を狭めるためにコントラスト学習を適用する。
論文参考訳（メタデータ） (2022-03-29T13:06:46Z)
Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文参考訳（メタデータ） (2020-10-21T11:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。