論文の概要: Generalizing AUC Optimization to Multiclass Classification for Audio
Segmentation With Limited Training Data
- arxiv url: http://arxiv.org/abs/2110.14425v1
- Date: Wed, 27 Oct 2021 13:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 15:38:04.537532
- Title: Generalizing AUC Optimization to Multiclass Classification for Audio
Segmentation With Limited Training Data
- Title(参考訳): 限られた訓練データを用いたオーディオセグメンテーションのためのAUC最適化とマルチクラス分類の一般化
- Authors: Pablo Gimeno, Victoria Mingote, Alfonso Ortega, Antonio Miguel,
Eduardo Lleida
- Abstract要約: ROC曲線(AUC)の最適化手法に基づく領域は、最近、様々な音声および音声関連タスクでその能力を実証している。
任意の数のクラスに容易に適用できるように,AUC最適化フレームワークの拡張を導入する。
- 参考スコア(独自算出の注目度): 20.943224434364517
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Area under the ROC curve (AUC) optimisation techniques developed for neural
networks have recently demonstrated their capabilities in different audio and
speech related tasks. However, due to its intrinsic nature, AUC optimisation
has focused only on binary tasks so far. In this paper, we introduce an
extension to the AUC optimisation framework so that it can be easily applied to
an arbitrary number of classes, aiming to overcome the issues derived from
training data limitations in deep learning solutions. Building upon the
multiclass definitions of the AUC metric found in the literature, we define two
new training objectives using a one-versus-one and a one-versus-rest approach.
In order to demonstrate its potential, we apply them in an audio segmentation
task with limited training data that aims to differentiate 3 classes:
foreground music, background music and no music. Experimental results show that
our proposal can improve the performance of audio segmentation systems
significantly compared to traditional training criteria such as cross entropy.
- Abstract(参考訳): ニューラルネットワーク用に開発されたORC曲線(AUC)最適化技術に基づく領域は、最近、異なる音声および音声関連タスクでその能力を実証している。
しかし、本質的な性質から、AUCの最適化は今のところバイナリタスクのみに焦点を当てている。
本稿では,auc最適化フレームワークを拡張して,任意の数のクラスに容易に適用できるようにし,ディープラーニングソリューションにおけるデータ制限のトレーニングから生じる問題を克服する。
文献で見られるAUCメトリックのマルチクラス定義に基づいて、1対1と1対1のアプローチを用いて2つの新たなトレーニング目標を定義する。
その可能性を示すために,前景音楽,背景音楽,無音楽の3つのクラスを区別することを目的とした,限られたトレーニングデータを持つ音声セグメンテーションタスクに適用する。
実験の結果,クロスエントロピーなどの従来の学習基準と比較して,音声セグメンテーションシステムの性能が著しく向上することがわかった。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。
我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。
OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文 参考訳(メタデータ) (2024-04-12T01:08:04Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。