論文の概要: ECHO: Environmental Sound Classification with Hierarchical Ontology-guided Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2409.14043v1
- Date: Sat, 21 Sep 2024 07:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 03:55:36.791197
- Title: ECHO: Environmental Sound Classification with Hierarchical Ontology-guided Semi-Supervised Learning
- Title(参考訳): ECHO:階層型オントロジー誘導半教師付き学習による環境音の分類
- Authors: Pranav Gupta, Raunak Sharma, Rashmi Kumari, Sri Krishna Aditya, Shwetank Choudhary, Sumit Kumar, Kanchana M, Thilagavathy R,
- Abstract要約: 階層型オントロジー誘導半教師付き学習(ECHO)を用いた環境音分類手法を提案する。
プレテキストタスクでは,大言語モデル(LLM)が定義する粗いラベルを,基底真理ラベルオントロジーに基づいて予測しようとする。
提案する半教師付きフレームワークは,ベースラインシステムよりも1%から8%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 1.692231043694918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environment Sound Classification has been a well-studied research problem in the field of signal processing and up till now more focus has been laid on fully supervised approaches. Over the last few years, focus has moved towards semi-supervised methods which concentrate on the utilization of unlabeled data, and self-supervised methods which learn the intermediate representation through pretext task or contrastive learning. However, both approaches require a vast amount of unlabelled data to improve performance. In this work, we propose a novel framework called Environmental Sound Classification with Hierarchical Ontology-guided semi-supervised Learning (ECHO) that utilizes label ontology-based hierarchy to learn semantic representation by defining a novel pretext task. In the pretext task, the model tries to predict coarse labels defined by the Large Language Model (LLM) based on ground truth label ontology. The trained model is further fine-tuned in a supervised way to predict the actual task. Our proposed novel semi-supervised framework achieves an accuracy improvement in the range of 1\% to 8\% over baseline systems across three datasets namely UrbanSound8K, ESC-10, and ESC-50.
- Abstract(参考訳): 環境音の分類は信号処理の分野でよく研究されてきた問題であり、これまでは完全に教師付きアプローチに重点を置いてきた。
近年、ラベルのないデータの利用に集中する半教師付き手法や、テキストタスクやコントラスト学習を通じて中間表現を学習する自己教師型手法に注目が集まっている。
しかし、どちらの手法も性能を向上させるために大量の非競合データを必要とする。
本研究では,ラベルオントロジーに基づく階層構造を利用した環境音分類手法である環境音分類法(ECHO)を提案する。
プレテキストタスクでは,大言語モデル(LLM)が定義する粗いラベルを,基底真理ラベルオントロジーに基づいて予測しようとする。
トレーニングされたモデルは、実際のタスクを予測する教師付き方法でさらに微調整される。
提案する半教師付きフレームワークは,UrbanSound8K,ESC-10,ESC-50という3つのデータセットにまたがるベースラインシステムの1\%から8\%の精度向上を実現する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Compensation Learning in Semantic Segmentation [22.105356244579745]
本研究では,曖昧さとラベルノイズを識別・補償するフレームワークであるセマンティックスケープにおける補償学習を提案する。
ニューラルネットワークに新たな不確実性分岐を導入し、関連する領域にのみ補償バイアスを誘導する。
提案手法は最先端のセグメンテーションフレームワークに応用され,いくつかの実験により,提案手法がクラス間関係を学習することを示す。
論文 参考訳(メタデータ) (2023-04-26T10:26:11Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - One Class One Click: Quasi Scene-level Weakly Supervised Point Cloud
Semantic Segmentation with Active Learning [29.493759008637532]
One Class One Click (OCOC)は、ポイントレベルのアノテーションとシーンレベルのアノテーションをカプセル化した、低コストで情報的な準シーンレベルのラベルである。
グローバル・ローカル・パースペクティブからの弱い監督を伴って、希少なラベルを活用するために、活発な弱監督フレームワークが提案されている。
F1スコアの平均値において、実際のシーンレベルの弱い監督手法を最大25%上回っている。
論文 参考訳(メタデータ) (2022-11-23T01:23:26Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。