論文の概要: Multi-label Zero-Shot Audio Classification with Temporal Attention
- arxiv url: http://arxiv.org/abs/2409.00408v1
- Date: Sat, 31 Aug 2024 09:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:49:38.698703
- Title: Multi-label Zero-Shot Audio Classification with Temporal Attention
- Title(参考訳): 時間的注意を伴うマルチラベルゼロショット音声分類
- Authors: Duygu Dogan, Huang Xie, Toni Heittola, Tuomas Virtanen,
- Abstract要約: 本研究では,マルチラベルゼロショット音声分類を行う手法を提案する。
我々は時間的注意を適応させ、その音響的および意味的適合性に基づいて、異なる音声セグメントに重みを割り当てる。
その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 8.518434546898524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning models are capable of classifying new classes by transferring knowledge from the seen classes using auxiliary information. While most of the existing zero-shot learning methods focused on single-label classification tasks, the present study introduces a method to perform multi-label zero-shot audio classification. To address the challenge of classifying multi-label sounds while generalizing to unseen classes, we adapt temporal attention. The temporal attention mechanism assigns importance weights to different audio segments based on their acoustic and semantic compatibility, thus enabling the model to capture the varying dominance of different sound classes within an audio sample by focusing on the segments most relevant for each class. This leads to more accurate multi-label zero-shot classification than methods employing temporally aggregated acoustic features without weighting, which treat all audio segments equally. We evaluate our approach on a subset of AudioSet against a zero-shot model using uniformly aggregated acoustic features, a zero-rule baseline, and the proposed method in the supervised scenario. Our results show that temporal attention enhances the zero-shot audio classification performance in multi-label scenario.
- Abstract(参考訳): ゼロショット学習モデルは、補助情報を用いて、見たクラスから知識を伝達することで、新しいクラスを分類することができる。
既存のゼロショット学習手法の多くはシングルラベルの分類タスクに重点を置いているが,本研究ではマルチラベルのゼロショット音声分類を行う手法を提案する。
目に見えないクラスに一般化しながら、複数ラベル音を分類するという課題に対処するため、時間的注意を適応する。
時間的注意機構は、音響的および意味的適合性に基づいて、重み付けを異なる音声セグメントに割り当てる。
これにより、重み付けなしで時間的に集約された音響特徴を用いる手法よりも、より正確なマルチラベルゼロショット分類が可能になる。
我々は,一様集約音響特徴量,ゼロルールベースラインを用いたゼロショットモデルに対するAudioSetのサブセットに対するアプローチと,教師付きシナリオにおける提案手法の評価を行った。
その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Generalized zero-shot audio-to-intent classification [7.76114116227644]
そこで本研究では,意図ごとのサンプルテキストしか持たない,ゼロショット音声からインテントへの一般化型分類フレームワークを提案する。
我々はニューラルオーディオシンセサイザーを利用して、サンプルテキスト発声のためのオーディオ埋め込みを作成する。
我々のマルチモーダルトレーニングアプローチは、SLURPの見えない意図に対するゼロショット意図分類の精度を2.75%と18.2%向上させる。
論文 参考訳(メタデータ) (2023-11-04T18:55:08Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Towards Unbiased Multi-label Zero-Shot Learning with Pyramid and
Semantic Attention [14.855116554722489]
マルチラベルゼロショット学習は、各入力サンプルに対して、複数の未確認クラスのラベルを認識することを目的としている。
本稿では,多様なクラス固有の領域を考慮し,非バイアス付きマルチラベルゼロショット学習の枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-07T15:52:46Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2020-07-27T05:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。