論文の概要: Face: Fast, Accurate and Context-Aware Audio Annotation and
Classification
- arxiv url: http://arxiv.org/abs/2303.03666v1
- Date: Tue, 7 Mar 2023 06:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:26:49.631198
- Title: Face: Fast, Accurate and Context-Aware Audio Annotation and
Classification
- Title(参考訳): Face: 高速・高精度・コンテキスト対応オーディオアノテーションと分類
- Authors: M. Mehrdad Morsali, Hoda Mohammadzade, Saeed Bagheri Shouraki
- Abstract要約: 本稿では,特徴選択と分類のための文脈認識フレームワークを提案し,高速かつ正確な音声イベントアノテーションと分類を実現する。
特徴選択のための探索は、音声テンポ表現の調査も取り入れている。
提案手法は,UrbanSound8Kデータセット上で98.05%の平均予測精度を得た。
- 参考スコア(独自算出の注目度): 1.4610038284393165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a context-aware framework for feature selection and
classification procedures to realize a fast and accurate audio event annotation
and classification. The context-aware design starts with exploring feature
extraction techniques to find an appropriate combination to select a set
resulting in remarkable classification accuracy with minimal computational
effort. The exploration for feature selection also embraces an investigation of
audio Tempo representation, an advantageous feature extraction method missed by
previous works in the environmental audio classification research scope. The
proposed annotation method considers outlier, inlier, and hard-to-predict data
samples to realize context-aware Active Learning, leading to the average
accuracy of 90% when only 15% of data possess initial annotation. Our proposed
algorithm for sound classification obtained average prediction accuracy of
98.05% on the UrbanSound8K dataset. The notebooks containing our source codes
and implementation results are available at https://github.com/gitmehrdad/FACE.
- Abstract(参考訳): 本稿では,特徴選択と分類のための文脈認識フレームワークを提案し,高速かつ正確な音声イベントアノテーションと分類を実現する。
文脈認識設計は、最小の計算労力で顕著な分類精度をもたらすセットを選択するための適切な組み合わせを見つけるために、特徴抽出技術を探ることから始まる。
特徴選択のための探索は,環境音の分類研究範囲における先行研究で見落とされた特徴抽出手法であるテンポ表現の探索も取り入れている。
提案手法は,文脈認識型アクティブラーニングを実現するために,外部値,非値,予測困難なデータサンプルを考慮し,15%のデータが初期アノテーションを持つ場合の平均精度を90%とする。
提案手法は,UrbanSound8Kデータセット上で98.05%の平均予測精度を得た。
ソースコードと実装結果を含むノートブックはhttps://github.com/gitmehrdad/FACE.orgで入手できる。
関連論文リスト
- Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset [6.91815289914328]
本稿では,異種音の自動分類手法について検討する。
手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。
実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。
論文 参考訳(メタデータ) (2024-10-01T18:09:02Z) - Prioritizing Informative Features and Examples for Deep Learning from Noisy Data [4.741012804505562]
本稿では,開発プロセスの各段階を強化するために,情報的特徴や事例を優先するシステムフレームワークを提案する。
まず,目的課題の解決に固有の情報的特徴のみを,補助的なアウト・オブ・ディストリビューションデータを用いて抽出する手法を提案する。
次に、能動学習のラベル付けコストを削減するために、ラベルなしノイズデータから情報的サンプルを優先する手法を提案する。
論文 参考訳(メタデータ) (2024-02-27T07:15:35Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Fast Classification with Sequential Feature Selection in Test Phase [1.1470070927586016]
本稿では,分類のための能動的特徴獲得のための新しいアプローチを提案する。
最適な予測性能を達成するために、最も情報性の高い機能のサブセットを順次選択する作業である。
提案手法では,既存の手法に比べてはるかに高速で効率の良い新しい遅延モデルが提案されている。
論文 参考訳(メタデータ) (2023-06-25T21:31:46Z) - Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。
本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文 参考訳(メタデータ) (2022-07-15T12:13:04Z) - UNICON: Combating Label Noise Through Uniform Selection and Contrastive
Learning [89.56465237941013]
UNICONは,高ラベル雑音に対して頑健な,シンプルで効果的なサンプル選択法である。
90%のノイズレートでCIFAR100データセットの最先端データよりも11.4%改善した。
論文 参考訳(メタデータ) (2022-03-28T07:36:36Z) - An Efficient and Accurate Rough Set for Feature Selection,
Classification and Knowledge Representation [89.5951484413208]
本稿では, 特徴選択, 分類, 知識表現を同時に実現する, 粗集合に基づく強力なデータマイニング手法を提案する。
まず, ノイズ特性の処理において, 粗集合の非効率性について検討し, 相対的重要度と呼ばれる特性のロバストな測定法を提案する。
公開ベンチマークデータセットによる実験結果から,提案フレームワークは7つの人気や最先端の機能選択手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-12-29T12:45:49Z) - Optimizing Speech Emotion Recognition using Manta-Ray Based Feature
Selection [1.4502611532302039]
既存の特徴抽出手法を用いて抽出した特徴の連結により,分類精度が向上することを示す。
また,音声感情認識タスクにおけるマンタレイ最適化の新たな応用を行い,その結果を得た。
論文 参考訳(メタデータ) (2020-09-18T16:09:34Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z) - Active Learning for Sound Event Detection [18.750572243562576]
本稿では,音事象検出(SED)のための能動的学習システムを提案する。
本研究の目的は,学習したSEDモデルの精度を限定的なアノテーションで最大化することである。
注目すべきは、ターゲット音イベントが稀なデータセットにおいて、必要なアノテーションの労力を大幅に削減できることだ。
論文 参考訳(メタデータ) (2020-02-12T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。