論文の概要: A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification
- arxiv url: http://arxiv.org/abs/2409.13676v1
- Date: Thu, 19 Sep 2024 11:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:57:35.371446
- Title: A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification
- Title(参考訳): 音声記述:ゼロショット音声分類を強化するプロンプトテンプレートとクラス記述の探索
- Authors: Michel Olvera, Paraskevas Stamatiadis, Slim Essid,
- Abstract要約: ゼロショット音声分類のための代替プロンプトテンプレートについて検討し、高い性能のオプションの存在を実証する。
本研究は, クラス記述の促進により, 周囲の音声データセット間でのゼロショット音声分類の結果が得られたことを示す。
- 参考スコア(独自算出の注目度): 7.622135228307756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-text models trained via contrastive learning offer a practical approach to perform audio classification through natural language prompts, such as "this is a sound of" followed by category names. In this work, we explore alternative prompt templates for zero-shot audio classification, demonstrating the existence of higher-performing options. First, we find that the formatting of the prompts significantly affects performance so that simply prompting the models with properly formatted class labels performs competitively with optimized prompt templates and even prompt ensembling. Moreover, we look into complementing class labels by audio-centric descriptions. By leveraging large language models, we generate textual descriptions that prioritize acoustic features of sound events to disambiguate between classes, without extensive prompt engineering. We show that prompting with class descriptions leads to state-of-the-art results in zero-shot audio classification across major ambient sound datasets. Remarkably, this method requires no additional training and remains fully zero-shot.
- Abstract(参考訳): 対照的な学習を通して訓練された音声テキストモデルは、"This is a sound of"のような自然言語のプロンプトを通じて音声分類を行うための実践的なアプローチを提供する。
本研究では、ゼロショット音声分類のための代替プロンプトテンプレートについて検討し、ハイパフォーマンスなオプションの存在を実証する。
まず、プロンプトのフォーマッティングがパフォーマンスに大きく影響を与え、適切にフォーマットされたクラスラベルでモデルにプロンプトを付けるだけで、最適化されたプロンプトテンプレートと競合し、さらにはアンサンブルのプロンプトを行う。
さらに、音声中心の記述によるクラスラベルの補完についても検討する。
大規模な言語モデルを活用することで,音声イベントの音響的特徴を,広範囲なプロンプトエンジニアリングを伴わずに,クラス間のあいまいさを優先するテキスト記述を生成する。
本研究は, クラス記述の促進により, 周囲の音声データセット間でのゼロショット音声分類の結果が得られたことを示す。
注目すべきは、この方法は追加のトレーニングを必要とせず、完全にゼロショットのままであることだ。
関連論文リスト
- Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。
本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。
提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文 参考訳(メタデータ) (2024-09-13T21:58:20Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Unsupervised Improvement of Audio-Text Cross-Modal Representations [19.960695758478153]
本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。
ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:30:46Z) - SemanticAC: Semantics-Assisted Framework for Audio Classification [13.622344835167997]
音声分類のためのセマンティックACを提案する。
我々は、ラベルから豊富な意味を抽出し、音声信号とそのラベル間の意味的一貫性を最適化するために、言語モデルを用いる。
提案手法は、比較音声分類法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-02-12T15:30:28Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Zero-Shot Audio Classification using Image Embeddings [16.115449653258356]
非線形音響シーマンティック・プロジェクションを用いてゼロショット音声分類のサイド情報として画像埋め込みを導入する。
画像埋め込みは,ゼロショット音声分類を行うための意味情報として利用できることを示す。
論文 参考訳(メタデータ) (2022-06-10T10:36:56Z) - Class-aware Sounding Objects Localization via Audiovisual Correspondence [51.39872698365446]
複雑な視覚的シナリオにおける音像の局所化と認識を行うための2段階の学習フレームワークを提案する。
我々は、カクテルパーティーのシナリオでクラス認識オブジェクトのローカライズマップを生成し、サイレントエリアの抑制にオーディオ視覚対応を使用する。
実写ビデオと合成ビデオの両方の実験では、オブジェクトのローカライズと認識だけでなく、サイレントビデオのフィルタリングにも優れていることが示されている。
論文 参考訳(メタデータ) (2021-12-22T09:34:33Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。