論文の概要: TSPE: Task-Specific Prompt Ensemble for Improved Zero-Shot Audio Classification
- arxiv url: http://arxiv.org/abs/2501.00398v1
- Date: Tue, 31 Dec 2024 11:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:19.254790
- Title: TSPE: Task-Specific Prompt Ensemble for Improved Zero-Shot Audio Classification
- Title(参考訳): TSPE:ゼロショット音声分類改善のためのタスク特化プロンプトアンサンブル
- Authors: Nishit Anand, Ashish Seth, Ramani Duraiswami, Dinesh Manocha,
- Abstract要約: TSPE(Task-Specific Prompt Ensemble)は、ALEのゼロショット性能を高める訓練不要なハードプロンプト手法である。
ラベル情報を活用して、「ラウド」や「フェブル」のような適切な音響特性と、「トンネル」や「ストリート」のような適切な音源を識別する。
音声テキストアライメントを向上させるため、TSPE生成タスク固有のプロンプト間でプロンプトアンサンブルを行う。
- 参考スコア(独自算出の注目度): 44.101538324619604
- License:
- Abstract: Audio-language models (ALMs) excel in zero-shot audio classification, a task where models classify previously unseen audio clips at test time by leveraging descriptive natural language prompts. We introduce TSPE (Task-Specific Prompt Ensemble), a simple, training-free hard prompting method that boosts ALEs' zero-shot performance by customizing prompts for diverse audio classification tasks. Rather than using generic template-based prompts like "Sound of a car" we generate context-rich prompts, such as "Sound of a car coming from a tunnel". Specifically, we leverage label information to identify suitable sound attributes, such as "loud" and "feeble", and appropriate sound sources, such as "tunnel" and "street" and incorporate this information into the prompts used by Audio-Language Models (ALMs) for audio classification. Further, to enhance audio-text alignment, we perform prompt ensemble across TSPE-generated task-specific prompts. When evaluated on 12 diverse audio classification datasets, TSPE improves performance across ALMs by showing an absolute improvement of 1.23-16.36% over vanilla zero-shot evaluation.
- Abstract(参考訳): 音声言語モデル(ALMs)はゼロショット音声分類において、記述的な自然言語プロンプトを活用することで、テスト時に未確認の音声クリップを分類するタスクである。
本稿では,ALEのゼロショット性能を向上し,多様な音声分類タスクのプロンプトをカスタマイズする,簡単な訓練不要なハードプロンプト手法であるTSPE(Task-Specific Prompt Ensemble)を紹介する。
車のサウンド」のような一般的なテンプレートベースのプロンプトを使うのではなく、「トンネルから来る車のサウンド」のような文脈に富んだプロンプトを生成する。
具体的には、ラベル情報を活用して、「ラウド」や「フェブル」のような適切な音響特性と「トンネル」や「ストリート」のような適切な音源を識別し、音声分類にALM(Audio-Language Models)が使用するプロンプトに組み込む。
さらに、音声テキストアライメントを強化するため、TSPE生成タスク固有のプロンプト間でプロンプトアンサンブルを行う。
12種類のオーディオ分類データセットで評価すると、TSPEはバニラゼロショット評価よりも1.23-16.36%の絶対的な改善を示し、ALM全体のパフォーマンスを改善する。
関連論文リスト
- Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification [7.622135228307756]
ゼロショット音声分類のための代替プロンプトテンプレートについて検討し、高い性能のオプションの存在を実証する。
本研究は, クラス記述の促進により, 周囲の音声データセット間でのゼロショット音声分類の結果が得られたことを示す。
論文 参考訳(メタデータ) (2024-09-19T11:27:50Z) - ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds [45.534228559551316]
CLAPを用いたゼロショット音声分類法を提案する。
本稿ではまず,野生の音の理解を改善するために,音声キャプションの書き直しを訓練したCLAPモデルであるReCLAPを提案する。
提案手法はZSACにおけるReCLAPの性能を1%-18%向上させ,全ベースラインを1%から55%向上させる。
論文 参考訳(メタデータ) (2024-09-13T21:58:20Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech
Using Natural Language Descriptions [21.15647416266187]
本稿では,自然言語記述を用いた話者識別制御が可能な音声合成システムPromptTTS++を提案する。
本稿では,話し方とほぼ独立に設計された音声特性を記述した話者プロンプトの概念を紹介する。
主観評価の結果,提案手法は話者プロンプトを使わずに話者特性を制御できることがわかった。
論文 参考訳(メタデータ) (2023-09-15T04:11:37Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。