論文の概要: Bilevel Joint Unsupervised and Supervised Training for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2412.08548v1
- Date: Wed, 11 Dec 2024 17:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:47.838797
- Title: Bilevel Joint Unsupervised and Supervised Training for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのバイレベル関節教師なし・教師付き訓練
- Authors: Xiaodong Cui, A F M Saif, Songtao Lu, Lisha Chen, Tianyi Chen, Brian Kingsbury, George Saon,
- Abstract要約: BL-JUSTは、自動音声認識のための二段階共同教師なしおよび教師付き訓練フレームワークである。
BL-JUSTは、教師なしと教師なしの両方の損失関数を同時に最小化する音響モデルの最適化を試みる。
BL-JUSTは、広く使われている事前学習と微調整の戦略と、他の人気のある半教師あり技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 75.89351788005479
- License:
- Abstract: In this paper, we propose a bilevel joint unsupervised and supervised training (BL-JUST) framework for automatic speech recognition. Compared to the conventional pre-training and fine-tuning strategy which is a disconnected two-stage process, BL-JUST tries to optimize an acoustic model such that it simultaneously minimizes both the unsupervised and supervised loss functions. Because BL-JUST seeks matched local optima of both loss functions, acoustic representations learned by the acoustic model strike a good balance between being generic and task-specific. We solve the BL-JUST problem using penalty-based bilevel gradient descent and evaluate the trained deep neural network acoustic models on various datasets with a variety of architectures and loss functions. We show that BL-JUST can outperform the widely-used pre-training and fine-tuning strategy and some other popular semi-supervised techniques.
- Abstract(参考訳): 本稿では,自動音声認識のための二段階共同教師なし・教師付き訓練(BL-JUST)フレームワークを提案する。
BL-JUSTは、従来の2段階のプロセスである事前学習と微調整の戦略と比較して、教師なしと教師なしの両方の損失関数を同時に最小化するように音響モデルの最適化を試みる。
BL-JUSTは両方の損失関数の局所的最適性を求めるため、音響モデルによって学習された音響表現は、一般的なものとタスク固有のものとのバランスが良い。
我々は,ペナルティに基づく二レベル勾配勾配を用いたBL-JUST問題を解くとともに,様々なアーキテクチャと損失関数を持つ各種データセット上で訓練された深層ニューラルネットワーク音響モデルを評価する。
BL-JUSTは、広く使われている事前学習と微調整の戦略と、他の人気のある半教師あり技術よりも優れていることを示す。
関連論文リスト
- Bayesian Learning-driven Prototypical Contrastive Loss for Class-Incremental Learning [42.14439854721613]
本稿では,クラス増分学習シナリオに特化して,ベイズ学習駆動型コントラスト損失(BLCL)を持つプロトタイプネットワークを提案する。
提案手法は,ベイズ学習手法を用いて,クロスエントロピーとコントラスト損失関数のバランスを動的に適用する。
論文 参考訳(メタデータ) (2024-05-17T19:49:02Z) - Joint Unsupervised and Supervised Training for Automatic Speech
Recognition via Bilevel Optimization [73.98386682604122]
両レベル共同教師なし・教師付き訓練(BL-JUST)と呼ばれる自動音声認識(ASR)タスクのための音響モデルのトレーニングのための,バイレベル最適化に基づく新たなトレーニング手法を提案する。
BL-JUSTは、教師なしの損失と教師なしの損失で下層と上層を最適化し、最近のペナルティベースの二レベル最適化の進歩を利用して、安価で複雑なASR問題と厳密な収束を保証する。
論文 参考訳(メタデータ) (2024-01-13T05:01:47Z) - Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup
Anomalous Sound Detection [5.1308092683559225]
非教師付き異常音検出(ASD)は、正常な操作音の特徴を学習し、その偏差を感知することで、異常音を識別することを目的としている。
近年, 正規データの分類を利用した自己教師型タスクに焦点が当てられ, 高度なモデルでは, 異常データの表現空間の確保が重要であることが示されている。
本研究では,クラス内コンパクト性を確保し,正常試料と異常試料との角度ギャップを増大させる訓練手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:04:36Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - CDLNet: Noise-Adaptive Convolutional Dictionary Learning Network for
Blind Denoising and Demosaicing [4.975707665155918]
アンロール最適化ネットワークは、ディープニューラルネットワークを構築するための解釈可能な代替手段を提供する。
本稿では,非学習型畳み込み辞書学習ネットワーク(CDLNet)を提案する。
具体的には,提案モデルが類似パラメータ数にスケールした場合に,完全畳み込みモデルやJDDモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-02T01:23:21Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。