論文の概要: ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds
- arxiv url: http://arxiv.org/abs/2409.09213v1
- Date: Fri, 13 Sep 2024 21:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:49:17.316702
- Title: ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds
- Title(参考訳): ReCLAP:音声記述によるゼロショット音声分類の改善
- Authors: Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha,
- Abstract要約: CLAPを用いたゼロショット音声分類法を提案する。
本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。
提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
- 参考スコア(独自算出の注目度): 45.534228559551316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary audio-language models, like CLAP, offer a promising approach for zero-shot audio classification (ZSAC) by enabling classification with any arbitrary set of categories specified with natural language prompts. In this paper, we propose a simple but effective method to improve ZSAC with CLAP. Specifically, we shift from the conventional method of using prompts with abstract category labels (e.g., Sound of an organ) to prompts that describe sounds using their inherent descriptive features in a diverse context (e.g.,The organ's deep and resonant tones filled the cathedral.). To achieve this, we first propose ReCLAP, a CLAP model trained with rewritten audio captions for improved understanding of sounds in the wild. These rewritten captions describe each sound event in the original caption using their unique discriminative characteristics. ReCLAP outperforms all baselines on both multi-modal audio-text retrieval and ZSAC. Next, to improve zero-shot audio classification with ReCLAP, we propose prompt augmentation. In contrast to the traditional method of employing hand-written template prompts, we generate custom prompts for each unique label in the dataset. These custom prompts first describe the sound event in the label and then employ them in diverse scenes. Our proposed method improves ReCLAP's performance on ZSAC by 1%-18% and outperforms all baselines by 1% - 55%.
- Abstract(参考訳): CLAPのようなオープン語彙のオーディオ言語モデルは、自然言語プロンプトで指定された任意のカテゴリの分類を可能にすることで、ゼロショットオーディオ分類(ZSAC)に有望なアプローチを提供する。
本稿では,CLAPを用いたZSACの改良手法を提案する。
具体的には,従来の抽象的カテゴリーラベルを用いたプロンプト(例:オルガンの音)から,その固有の記述的特徴を多様な文脈で表現するプロンプト(例:オルガンの深さと共鳴音が大聖堂を埋める)へ移行した。
そこで我々はまず,書き直した音声キャプションで学習したCLAPモデルであるReCLAPを提案する。
これらの書き直されたキャプションは、独自の識別特性を用いて、元のキャプション内の各サウンドイベントを記述している。
ReCLAPはマルチモーダル音声テキスト検索とZSACの両方で全てのベースラインを上回ります。
次に、ReCLAPによるゼロショット音声分類を改善するために、プロンプト拡張を提案する。
手書きテンプレートプロンプトを使用する従来の方法とは対照的に、データセット内の各ユニークなラベルに対して独自のプロンプトを生成する。
これらのカスタムプロンプトは、まずレーベルでサウンドイベントを記述し、それから様々な場面でそれらを使用します。
提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification [7.622135228307756]
ゼロショット音声分類のための代替プロンプトテンプレートについて検討し、高い性能のオプションの存在を実証する。
本研究は, クラス記述の促進により, 周囲の音声データセット間でのゼロショット音声分類の結果が得られたことを示す。
論文 参考訳(メタデータ) (2024-09-19T11:27:50Z) - Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Gen-Z: Generative Zero-Shot Text Classification with Contextualized
Label Descriptions [50.92702206798324]
ゼロショットテキスト分類のための生成的プロンプトフレームワークを提案する。
GEN-Zはラベルの自然言語記述に基づく入力テキストのLM可能性を測定する。
データソースの文脈化によるゼロショット分類は、ゼロショットベースラインと少数ショットベースラインの両方を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-11-13T07:12:57Z) - Generalized zero-shot audio-to-intent classification [7.76114116227644]
そこで本研究では,意図ごとのサンプルテキストしか持たない,ゼロショット音声からインテントへの一般化型分類フレームワークを提案する。
我々はニューラルオーディオシンセサイザーを利用して、サンプルテキスト発声のためのオーディオ埋め込みを作成する。
我々のマルチモーダルトレーニングアプローチは、SLURPの見えない意図に対するゼロショット意図分類の精度を2.75%と18.2%向上させる。
論文 参考訳(メタデータ) (2023-11-04T18:55:08Z) - CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models [41.98394436858637]
提案するCompAは,実世界の音声サンプルの大部分を収録した,専門家による2つのベンチマークのコレクションである。
まず,現在のALMはランダムな確率よりもわずかに優れた性能を示し,構成的推論に苦しむことを示す。
次に,新しい学習法を用いてCLAPを微調整し,合成推論能力を向上させるCompA-CLAPを提案する。
論文 参考訳(メタデータ) (2023-10-12T22:43:38Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。