論文の概要: O-1: Self-training with Oracle and 1-best Hypothesis
- arxiv url: http://arxiv.org/abs/2308.07486v1
- Date: Mon, 14 Aug 2023 22:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:41:37.317714
- Title: O-1: Self-training with Oracle and 1-best Hypothesis
- Title(参考訳): O-1: Oracleによる自己学習と1-best仮説
- Authors: Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik
Audhkhasi
- Abstract要約: 我々は,学習バイアスを低減し,音声認識のためのトレーニングと評価のメトリクスを統一する,新たな自己学習目標であるO-1を紹介する。
O-1は期待最小ベイズリスク(EMBR)のより高速な派生型である
提案手法の有効性を,公開されているSpeechStewデータセットと大規模社内データセットの認識の観点から実証する。
- 参考スコア(独自算出の注目度): 28.29032897491778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce O-1, a new self-training objective to reduce training bias and
unify training and evaluation metrics for speech recognition. O-1 is a faster
variant of Expected Minimum Bayes Risk (EMBR), that boosts the oracle
hypothesis and can accommodate both supervised and unsupervised data. We
demonstrate the effectiveness of our approach in terms of recognition on
publicly available SpeechStew datasets and a large-scale, in-house data set. On
Speechstew, the O-1 objective closes the gap between the actual and oracle
performance by 80\% relative compared to EMBR which bridges the gap by 43\%
relative. O-1 achieves 13\% to 25\% relative improvement over EMBR on the
various datasets that SpeechStew comprises of, and a 12\% relative gap
reduction with respect to the oracle WER over EMBR training on the in-house
dataset. Overall, O-1 results in a 9\% relative improvement in WER over EMBR,
thereby speaking to the scalability of the proposed objective for large-scale
datasets.
- Abstract(参考訳): 学習バイアスを低減し,音声認識のための訓練・評価指標を統一した,新しい自己学習目標であるo-1を提案する。
O-1 は期待最小ベイズリスク (EMBR) のより高速な変種であり、オラクル仮説を促進し、教師なしデータと教師なしデータの両方に対応できる。
提案手法の有効性を,公開されているSpeechStewデータセットと大規模社内データセットの認識の観点から実証する。
Speechstew では,O-1 の目標は,そのギャップを 43 % に橋渡しする EMBR と比較して,実際の性能とオラクル性能のギャップを 80 % 縮める。
o-1 は speechstew が構成する様々なデータセット上の embr に対する 13\% から 25\% の相対的改善を達成し、社内データセットでの embr トレーニングに対する oracle wer に対する 12\% の相対的ギャップ削減を達成している。
全体として、O-1 は EMBR よりも WER が 9 % 向上する結果となり、大規模なデータセットに対して提案された目的のスケーラビリティに言及する。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation [8.661419320202787]
MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。
本稿では,従来の文献における重要なギャップに対処する,ランク付けのための教師なしドメイン適応手法であるDUQGenを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:50:42Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Improving Noisy Student Training on Non-target Domain Data for Automatic
Speech Recognition [6.506420603456938]
我々は,NSTの性能を向上させるため,LMフィルタというデータ選択手法を提案する。
AISHELL-1テストセットでは3.31%のCERが達成できます。
また、教師付き1000時間AISHELL-2データセットの評価を行い、CERの4.72%の競争結果を得ることができた。
論文 参考訳(メタデータ) (2022-11-09T07:23:15Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech [17.602098162338137]
句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-08-03T08:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。