論文の概要: Leveraging Prediction Entropy for Automatic Prompt Weighting in Zero-Shot Audio-Language Classification
- arxiv url: http://arxiv.org/abs/2601.05011v1
- Date: Thu, 08 Jan 2026 15:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.247123
- Title: Leveraging Prediction Entropy for Automatic Prompt Weighting in Zero-Shot Audio-Language Classification
- Title(参考訳): ゼロショット音声言語分類における自動プロンプト重み付けのためのレバレッジ予測エントロピー
- Authors: Karim El Khoury, Maxime Zanella, Tiffanie Godelaine, Christophe De Vleeschouwer, Benoit Macq,
- Abstract要約: 本稿では,予測信頼度を最大化するために,コントリビューションの頑健な組み合わせを見つけることを目的としたエントロピー誘導型プロンプト重み付け手法を提案する。
我々の手法は個々のサンプルやオーディオサンプルに応用でき、追加のラベルを必要とせず、無視できる計算オーバーヘッドを発生させる。
- 参考スコア(独自算出の注目度): 19.724558192829093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-language models have recently demonstrated strong zero-shot capabilities by leveraging natural-language supervision to classify audio events without labeled training data. Yet, their performance is highly sensitive to the wording of text prompts, with small variations leading to large fluctuations in accuracy. Prior work has mitigated this issue through prompt learning or prompt ensembling. However, these strategies either require annotated data or fail to account for the fact that some prompts may negatively impact performance. In this work, we present an entropy-guided prompt weighting approach that aims to find a robust combination of prompt contributions to maximize prediction confidence. To this end, we formulate a tailored objective function that minimizes prediction entropy to yield new prompt weights, utilizing low-entropy as a proxy for high confidence. Our approach can be applied to individual samples or a batch of audio samples, requiring no additional labels and incurring negligible computational overhead. Experiments on five audio classification datasets covering environmental, urban, and vocal sounds, demonstrate consistent gains compared to classical prompt ensembling methods in a zero-shot setting, with accuracy improvements 5-times larger across the whole benchmark.
- Abstract(参考訳): 音声認識モデルは、自然言語の監視を利用して、ラベル付きトレーニングデータなしで音声イベントを分類することで、強力なゼロショット機能を示している。
しかし、その性能はテキストプロンプトの語調に非常に敏感であり、小さなバリエーションによって精度が大きく変動する。
それまでの作業は、迅速な学習や迅速なアンサンブルを通じてこの問題を緩和してきた。
しかしながら、これらの戦略は注釈付きデータを必要とするか、あるいはいくつかのプロンプトがパフォーマンスに悪影響を及ぼす可能性があるという事実を説明できないかのどちらかである。
本研究は,予測信頼度を最大化するために,迅速なコントリビューションの堅牢な組み合わせを見つけることを目的としたエントロピー誘導型プロンプト重み付け手法を提案する。
この目的を達成するために,予測エントロピーを最小化して新たなプロンプトウェイトを発生させる目的関数を定式化し,低エントロピーを高信頼のプロキシとして利用する。
我々の手法は個々のサンプルやオーディオサンプルに応用でき、追加のラベルを必要とせず、無視できる計算オーバーヘッドを発生させる。
環境・都市・発声音を含む5つの音声分類データセットの実験は、ゼロショット設定における古典的なプロンプトアンサンブル法と比較して一貫した利得を示し、ベンチマーク全体の精度は5倍に向上した。
関連論文リスト
- Generalizable Vision-Language Few-Shot Adaptation with Predictive Prompts and Negative Learning [1.3680468021400563]
ヴィジュアル言語モデル(VLM)の核となる課題は、ほとんどない
PromptFuseNLは、予測的プロンプトチューニングと2分岐正負の学習を組み合わせることで、数ショットの一般化を向上する統合フレームワークである。
論文 参考訳(メタデータ) (2025-05-16T23:39:34Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Checklist Models for Improved Output Fluency in Piano Fingering
Prediction [33.52847881359949]
ピアノ音楽の指先予測のための新しい手法を提案する。
我々は、近年の予測の表現を維持する強化学習を通じて訓練されたチェックリストシステムを提案する。
これらの指標に対する改善に直接寄与する性能の顕著な向上を示す。
論文 参考訳(メタデータ) (2022-09-12T21:27:52Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。