論文の概要: Ontology-aware Learning and Evaluation for Audio Tagging
- arxiv url: http://arxiv.org/abs/2211.12195v1
- Date: Tue, 22 Nov 2022 11:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 17:26:32.278620
- Title: Ontology-aware Learning and Evaluation for Audio Tagging
- Title(参考訳): 音声タグのオントロジー学習と評価
- Authors: Haohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang, Mark D.
Plumbley
- Abstract要約: 平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
- 参考スコア(独自算出の注目度): 56.59107110017436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study defines a new evaluation metric for audio tagging tasks to
overcome the limitation of the conventional mean average precision (mAP)
metric, which treats different kinds of sound as independent classes without
considering their relations. Also, due to the ambiguities in sound labeling,
the labels in the training and evaluation set are not guaranteed to be accurate
and exhaustive, which poses challenges for robust evaluation with mAP. The
proposed metric, ontology-aware mean average precision (OmAP) addresses the
weaknesses of mAP by utilizing the AudioSet ontology information during the
evaluation. Specifically, we reweight the false positive events in the model
prediction based on the ontology graph distance to the target classes. The OmAP
measure also provides more insights into model performance by evaluations with
different coarse-grained levels in the ontology graph. We conduct human
evaluations and demonstrate that OmAP is more consistent with human perception
than mAP. To further verify the importance of utilizing the ontology
information, we also propose a novel loss function (OBCE) that reweights binary
cross entropy (BCE) loss based on the ontology distance. Our experiment shows
that OBCE can improve both mAP and OmAP metrics on the AudioSet tagging task.
- Abstract(参考訳): 本研究は,従来の平均精度(map)指標の限界を克服するために,音声タグづけタスクの新たな評価基準を定義し,それらの関係を考慮せずに,異なる種類の音を独立したクラスとして扱う。
また、音響ラベリングの曖昧さのため、トレーニングおよび評価セットのラベルは正確かつ徹底的であることが保証されていないため、mAPによるロバストな評価が困難である。
提案手法では,評価中にAudioSetオントロジー情報を利用することで,平均平均精度(OmAP)がmAPの弱点に対処する。
具体的には,対象クラスへのオントロジーグラフ距離に基づいてモデル予測における偽陽性事象の重み付けを行う。
OmAP測度はまた、オントロジーグラフの粗いレベルが異なる評価によってモデルパフォーマンスに関する洞察を提供する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
オントロジー情報を活用することの重要性をさらに検証するために、オントロジー距離に基づいて二元交叉エントロピー(BCE)損失を再重み付けする新しい損失関数(OBCE)を提案する。
実験の結果,OBCEはAudioSetタグ付けタスクにおいて,mAPとOmAPの両方のメトリクスを改善することができることがわかった。
関連論文リスト
- Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.1455937444848385]
本稿では,音声病理診断における現代的実践の徹底的な研究から得られた,ロバストな特徴セットを提案する。
K-Means Synthetic Minority Over-Sampling Technique(K-Means Synthetic Over-Sampling Technique)アルゴリズムを用いて,Sarbr"ucken Voice Database(SVD)のデータを含むこの機能セットを組み合わせる。
提案手法は,音声病理診断における非重み付き平均リコールによって測定された最先端の性能を達成している。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - A Comprehensive Rubric for Annotating Pathological Speech [0.0]
音声学, 流音学, 韻律学など, 音声品質の様々な側面に基づく包括的ルーリックを導入する。
本研究の目的は,ダウン症候群患者の発話中の誤りを識別するための標準化基準を確立することである。
論文 参考訳(メタデータ) (2024-04-29T16:44:27Z) - Continual Evidential Deep Learning for Out-of-Distribution Detection [20.846788009755183]
不確実性に基づくディープラーニングモデルは、正確で信頼性の高い予測を提供する能力に対して、大きな関心を集めている。
Evidential Deep Learningは、単一決定論的ニューラルネットワークによるアウト・オブ・ディストリビューション(OOD)データの検出において、優れたパフォーマンスを実現している。
本稿では,オブジェクト分類とOOD検出を同時に行うために,明らかなディープラーニング手法を連続的な学習フレームワークに統合することを提案する。
論文 参考訳(メタデータ) (2023-09-06T13:36:59Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Attention-based Neural Bag-of-Features Learning for Sequence Data [143.62294358378128]
2D-Attention (2DA) は、シーケンスデータの一般的なアテンション定式化である。
提案したアテンションモジュールは、最近提案されたNeural Bag of Feature(NBoF)モデルに組み込まれ、学習能力を高める。
実験により,提案手法はNBoFモデルの性能を向上させるだけでなく,ノイズに耐性を持つことを示す。
論文 参考訳(メタデータ) (2020-05-25T17:51:54Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。