論文の概要: Hierarchical Label Propagation: A Model-Size-Dependent Performance Booster for AudioSet Tagging
- arxiv url: http://arxiv.org/abs/2503.21826v1
- Date: Wed, 26 Mar 2025 08:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:30:49.284477
- Title: Hierarchical Label Propagation: A Model-Size-Dependent Performance Booster for AudioSet Tagging
- Title(参考訳): 階層的ラベル伝搬: 音響セットタギングのためのモデルサイズ依存型パフォーマンスブースタ
- Authors: Ludovic Tuncay, Etienne Labbé, Thomas Pellegrini,
- Abstract要約: AudioSetは、約200万のオーディオサンプルを含む、オーディオタグの最も多く、かつ最大のデータセットの1つである。
HLPはオントロジー階層のラベルを伝播し、オーディオクリップあたりの正のラベルが1.98から2.39へと平均的に増加する。
我々の結果は、HLPが様々なモデルアーキテクチャにまたがって性能上の利点を提供することを示した。
- 参考スコア(独自算出の注目度): 8.332577376577625
- License:
- Abstract: AudioSet is one of the most used and largest datasets in audio tagging, containing about 2 million audio samples that are manually labeled with 527 event categories organized into an ontology. However, the annotations contain inconsistencies, particularly where categories that should be labeled as positive according to the ontology are frequently mislabeled as negative. To address this issue, we apply Hierarchical Label Propagation (HLP), which propagates labels up the ontology hierarchy, resulting in a mean increase in positive labels per audio clip from 1.98 to 2.39 and affecting 109 out of the 527 classes. Our results demonstrate that HLP provides performance benefits across various model architectures, including convolutional neural networks (PANN's CNN6 and ConvNeXT) and transformers (PaSST), with smaller models showing more improvements. Finally, on FSD50K, another widely used dataset, models trained on AudioSet with HLP consistently outperformed those trained without HLP. Our source code will be made available on GitHub.
- Abstract(参考訳): AudioSetは、オーディオタグ付けで最も使われ、最大のデータセットの1つで、約200万のオーディオサンプルが含まれており、手動で527のイベントカテゴリをオントロジーに分類している。
しかし、アノテーションには矛盾があり、特にオントロジーに従って肯定的にラベル付けすべきカテゴリは、しばしば否定的にラベル付けされる。
この問題に対処するため,HLP (Hierarchical Label Propagation) を適用し,音声クリップあたりの正のラベルが1.98から2.39に増加し,527クラス中109に影響を及ぼした。
以上の結果から,HLPは畳み込みニューラルネットワーク(PANNのCNN6とConvNeXT)や変換器(PaSST)など,さまざまなモデルアーキテクチャにおけるパフォーマンス上のメリットを実証した。
最後に、広く使われているもう1つのデータセットであるFSD50Kでは、HLPを使用してAudioSetでトレーニングされたモデルが、HLPなしでトレーニングされたモデルよりも一貫して優れていた。
ソースコードはGitHubで公開されます。
関連論文リスト
- Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - SemanticAC: Semantics-Assisted Framework for Audio Classification [13.622344835167997]
音声分類のためのセマンティックACを提案する。
我々は、ラベルから豊富な意味を抽出し、音声信号とそのラベル間の意味的一貫性を最適化するために、言語モデルを用いる。
提案手法は、比較音声分類法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-02-12T15:30:28Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Binary Classification with Positive Labeling Sources [71.37692084951355]
WEAPOは、負のラベル付け源を使わずにトレーニングラベルを作成するための、シンプルで競争力のあるWS手法である。
We show WEAPO achieve the highest averaged performance on 10 benchmark datasets。
論文 参考訳(メタデータ) (2022-08-02T19:32:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - DECAF: Deep Extreme Classification with Label Features [9.768907751312396]
極端なマルチラベル分類(XML)では、非常に大きなラベルセットから最も関連性の高いラベルのサブセットにデータポイントをタグ付けする。
リードXMLアルゴリズムは数百万のラベルにスケールするが、ラベルのテキスト記述のようなラベルメタデータは無視される。
本稿では,ラベルメタデータに富んだ学習モデルを用いて,これらの課題に対処するDECAFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-08-01T05:36:05Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z) - Audio Tagging by Cross Filtering Noisy Labels [26.14064793686316]
そこで我々はCrossFilterという新しいフレームワークを提案し,音声タグ付けにおけるノイズラベル問題に対処する。
提案手法は最先端の性能を達成し,アンサンブルモデルを超えている。
論文 参考訳(メタデータ) (2020-07-16T07:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。