論文の概要: Improving Audio Classification by Transitioning from Zero- to Few-Shot
- arxiv url: http://arxiv.org/abs/2507.20036v1
- Date: Sat, 26 Jul 2025 18:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.764364
- Title: Improving Audio Classification by Transitioning from Zero- to Few-Shot
- Title(参考訳): ゼロからFewショットへの移行による音声分類の改善
- Authors: James Taylor, Wolfgang Mack,
- Abstract要約: 最先端オーディオ分類ではゼロショット方式を用いることが多い。
本稿では,ゼロショット法以外の分類精度の向上を目的とした少数ショット法について検討する。
- 参考スコア(独自算出の注目度): 4.31241676251521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art audio classification often employs a zero-shot approach, which involves comparing audio embeddings with embeddings from text describing the respective audio class. These embeddings are usually generated by neural networks trained through contrastive learning to align audio and text representations. Identifying the optimal text description for an audio class is challenging, particularly when the class comprises a wide variety of sounds. This paper examines few-shot methods designed to improve classification accuracy beyond the zero-shot approach. Specifically, audio embeddings are grouped by class and processed to replace the inherently noisy text embeddings. Our results demonstrate that few-shot classification typically outperforms the zero-shot baseline.
- Abstract(参考訳): State-of-the-artオーディオ分類では、ゼロショット方式を採用しており、各オーディオクラスを記述するテキストからの埋め込みとオーディオ埋め込みを比較している。
これらの埋め込みは通常、音声とテキストの表現を調整するためにコントラスト学習を通じてトレーニングされたニューラルネットワークによって生成される。
音声学級における最適テキスト記述の特定は,特に多様な音のクラスでは困難である。
本稿では,ゼロショット法以外の分類精度の向上を目的とした少数ショット法について検討する。
具体的には、オーディオ埋め込みはクラスによってグループ化され、本質的にノイズの多いテキスト埋め込みを置き換えるために処理される。
以上の結果から,ゼロショットの分類はゼロショットのベースラインを上回っていることが明らかとなった。
関連論文リスト
- TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining [3.5570874721859016]
音声録音におけるテキスト記述と時間領域の整合を学習するフレームワイドコントラスト学習手法を提案する。
我々のモデルは,AudioSet Strongベンチマークで評価した場合,グローバルキャプションでのみ訓練されたモデルと比較して,時間的テキスト・オーディオアライメント能力が優れている。
論文 参考訳(メタデータ) (2025-05-12T14:30:39Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - A sound description: Exploring prompt templates and class descriptions to enhance zero-shot audio classification [7.622135228307756]
ゼロショット音声分類のための代替プロンプトテンプレートについて検討し、高い性能のオプションの存在を実証する。
本研究は, クラス記述の促進により, 周囲の音声データセット間でのゼロショット音声分類の結果が得られたことを示す。
論文 参考訳(メタデータ) (2024-09-19T11:27:50Z) - Multi-label Zero-Shot Audio Classification with Temporal Attention [8.518434546898524]
本研究では,マルチラベルゼロショット音声分類を行う手法を提案する。
我々は時間的注意を適応させ、その音響的および意味的適合性に基づいて、異なる音声セグメントに重みを割り当てる。
その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。
論文 参考訳(メタデータ) (2024-08-31T09:49:41Z) - Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - Zero-Shot Audio Captioning via Audibility Guidance [57.70351255180495]
音声のキャプションのためのデシラタを3つ提案する -- (i) 生成したテキストの流布, (ii) 生成したテキストを入力オーディオに忠実さ, (iii) 可聴性。
本手法はゼロショット法であり,キャプションの実行を学習していない。
本稿では,AudioCapデータセットを用いて,聴力指導がベースラインと比較して性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:45:58Z) - Unsupervised Improvement of Audio-Text Cross-Modal Representations [19.960695758478153]
本研究では、教師なしのテキストと音声を用いて、そのような表現の学習フレームワークを改善するための教師なしのアプローチについて研究する。
ドメイン固有のキュレーションをソフトラベル付きコントラスト損失と併用することで、ゼロショット分類性能において大幅な改善が得られることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:30:46Z) - Towards Generating Diverse Audio Captions via Adversarial Training [33.76154801580643]
音声キャプションシステムの多様性を向上させるために,条件付き生成対向ネットワーク(C-GAN)を提案する。
キャプションジェネレータと2つのハイブリッドディスクリミネータが競合し、共同で学習し、キャプションジェネレータは、キャプションを生成するのに使用される標準エンコーダデコーダキャプションモデルとなることができる。
その結果,提案モデルでは,最先端手法と比較して,より多様性の高いキャプションを生成できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T05:06:19Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。