Fugu-MT 論文翻訳(概要): Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

論文の概要: Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition

arxiv url: http://arxiv.org/abs/2406.02566v1
Date: Fri, 3 May 2024 19:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-09 15:49:54.098856
Title: Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition
Title（参考訳）: X-ベクトルとベイジアンバッチアクティブラーニングを組み合わせる:音声認識のための2段階アクティブラーニングパイプライン
Authors: Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic,
Abstract要約: 本稿では,音声認識のための新しい2段階アクティブ・ラーニング・パイプラインを提案する。第1段階では、ラベルなし音声データから多様なサンプル選択を行うために、xベクトルクラスタリングを用いて教師なしALを利用する。第2段階には、ASR用に特別に開発されたバッチALメソッドを備えた、教師付きAL戦略が組み込まれている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emphasizing a data-centric AI approach, this paper introduces a novel two-stage active learning (AL) pipeline for automatic speech recognition (ASR), combining unsupervised and supervised AL methods. The first stage utilizes unsupervised AL by using x-vectors clustering for diverse sample selection from unlabeled speech data, thus establishing a robust initial dataset for the subsequent supervised AL. The second stage incorporates a supervised AL strategy, with a batch AL method specifically developed for ASR, aimed at selecting diverse and informative batches of samples. Here, sample diversity is also achieved using x-vectors clustering, while the most informative samples are identified using a Bayesian AL method tailored for ASR with an adaptation of Monte Carlo dropout to approximate Bayesian inference. This approach enables precise uncertainty estimation, thereby enhancing ASR model training with significantly reduced data requirements. Our method has shown superior performance compared to competing methods on homogeneous, heterogeneous, and OOD test sets, demonstrating that strategic sample selection and innovative Bayesian modeling can substantially optimize both labeling effort and data utilization in deep learning-based ASR applications.
Abstract（参考訳）: 本稿では、データ中心型AIアプローチを強調し、教師なしと教師なしのAL手法を組み合わせた、自動音声認識(ASR)のための新しい2段階アクティブラーニング(AL)パイプラインを提案する。第1段階では、ラベル付き音声データから多様なサンプル選択を行うためにxベクトルクラスタリングを用いて教師なしALを利用する。第2段階では、教師付きAL戦略と、ASR用に特別に開発されたバッチAL手法が組み込まれており、多種多様で情報に富んだサンプルのバッチを選択することを目的としている。ここでは、サンプルの多様性をxベクトルクラスタリングを用いて達成し、最も有益なサンプルは、モンテカルロのドロップアウトを近似ベイズ推定に適応させたASRに適したベイズAL法を用いて同定する。この手法により、精度の高い不確実性推定が可能となり、データ要求を大幅に削減したASRモデルトレーニングが向上する。提案手法は, 同種, 異種およびOODテストセットの競合手法と比較して優れた性能を示し, 戦略サンプル選択と革新的ベイズモデルにより, 深層学習に基づくASRアプリケーションにおいて, ラベル付け作業とデータ利用の両方を効果的に最適化できることを実証した。

関連論文リスト

Active Learning via Classifier Impact and Greedy Selection for Interactive Image Retrieval [4.699825956909531]
Active Learning(AL)は,ラベル付けに最も重要な例を選択することで,アノテーションコストの削減を目的とした,ユーザインタラクションのアプローチである。我々はGAL(Greedy Active Learning)と呼ばれる新しいバッチモードアクティブラーニングフレームワークを導入し、このアプリケーションに対処する。
論文参考訳（メタデータ） (2024-12-03T09:27:46Z)
Maximally Separated Active Learning [32.98415531556376]
固定等角超球面点をクラスプロトタイプとして利用する能動的学習法を提案する。 5つのベンチマークデータセットにまたがる既存のアクティブラーニング技術よりも高いパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-26T14:02:43Z)
Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。 3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文参考訳（メタデータ） (2024-11-04T16:46:53Z)
Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。 DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。 10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-20T01:34:13Z)
Anchor-aware Deep Metric Learning for Audio-visual Retrieval [11.675472891647255]
Metric Learningは、基礎となるデータ構造を捕捉し、オーディオ・ビジュアル・クロスモーダル検索(AV-CMR)のようなタスクの性能を向上させることを目的としている。近年の研究では、トレーニング中に埋め込み空間から影響のあるデータポイントを選択するためのサンプリング手法が採用されている。しかし、トレーニングデータポイントの不足のため、モデルトレーニングはスペースを完全に探索することができない。本稿では,この課題に対処するために,AADML(Anchor-aware Deep Metric Learning)手法を提案する。
論文参考訳（メタデータ） (2024-04-21T22:44:44Z)
Mean-AP Guided Reinforced Active Learning for Object Detection [31.304039641225504]
本稿では,オブジェクト検出のための平均APガイド型アクティブラーニングについて紹介する。 MGRALは、予測されたモデル出力変化の概念を深層検知ネットワークの情報性として活用する新しいアプローチである。提案手法は,物体検出のための強化学習に基づく能動学習における新たなパラダイムを確立し,高い性能を示す。
論文参考訳（メタデータ） (2023-10-12T14:59:22Z)
A Global Model Approach to Robust Few-Shot SAR Automatic Target Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文参考訳（メタデータ） (2023-03-20T00:24:05Z)
Pareto Optimization for Active Learning under Out-of-Distribution Data Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文参考訳（メタデータ） (2022-07-04T04:11:44Z)
A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文参考訳（メタデータ） (2022-02-08T19:18:49Z)
Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文参考訳（メタデータ） (2021-08-12T09:14:44Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)
A Mathematical Programming approach to Binary Supervised Classification with Label Noise [1.2031796234206138]
本稿では,Support Vector Machineベースの分類器を構築するための新しい手法を提案する。最初の方法は、SVMモデルに直接レバーベリングを組み込む。第2の手法群はクラスタリングと分類を同時に組み合わせ、類似度尺度とSVMを同時に適用するモデルを生み出す。
論文参考訳（メタデータ） (2020-04-21T17:25:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。