論文の概要: Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation
- arxiv url: http://arxiv.org/abs/2212.13378v1
- Date: Tue, 27 Dec 2022 06:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:53:49.112761
- Title: Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation
- Title(参考訳): はっきりしないで!
信頼緩和によるASR復号化
- Authors: Tomer Wullach, Shlomo E. Chazan
- Abstract要約: ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
- 参考スコア(独自算出の注目度): 7.056222499095849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems frequently use a search-based
decoding strategy aiming to find the best attainable transcript by considering
multiple candidates. One prominent speech recognition decoding heuristic is
beam search, which seeks the transcript with the greatest likelihood computed
using the predicted distribution. While showing substantial performance gains
in various tasks, beam search loses some of its effectiveness when the
predicted probabilities are highly confident, i.e., the predicted distribution
is massed for a single or very few classes. We show that recently proposed
Self-Supervised Learning (SSL)-based ASR models tend to yield exceptionally
confident predictions that may hamper beam search from truly considering a
diverse set of candidates. We perform a layer analysis to reveal and visualize
how predictions evolve, and propose a decoding procedure that improves the
performance of fine-tuned ASR models. Our proposed approach does not require
further training beyond the original fine-tuning, nor additional model
parameters. In fact, we find that our proposed method requires significantly
less inference computation than current approaches. We propose aggregating the
top M layers, potentially leveraging useful information encoded in intermediate
layers, and relaxing model confidence. We demonstrate the effectiveness of our
approach by conducting an empirical study on varying amounts of labeled
resources and different model sizes, showing consistent improvements in
particular when applied to low-resource scenarios.
- Abstract(参考訳): 自動音声認識(asr)システムは、複数の候補を考慮し、最適な書き起こしを見つけることを目的とした検索ベースの復号化戦略を頻繁に使用する。
ヒューリスティックを復号化する音声認識の一つはビーム探索(beam search)であり、予測分布を用いて計算される最も可能性の高い書き起こしを求める。
ビームサーチは様々なタスクにおいて顕著な性能向上を示す一方で、予測確率が高い自信を持つ場合、すなわち予測分布が単一のクラスまたはごく少数のクラスで質量化される場合、その効果のいくつかを失う。
近年提案されている自己教師付き学習(ssl)ベースのasrモデルが,ビーム探索を阻害する非常に自信のある予測をもたらす傾向を示した。
本研究では,予測の進化過程を明らかにするための層解析を行い,微調整されたASRモデルの性能を向上させる復号手法を提案する。
提案手法では,従来の微調整だけでなく,モデルパラメータの追加も必要としない。
実際,提案手法では,現在の手法よりも推論計算がかなり少ないことがわかった。
我々は,上位m層を集約し,中間層にエンコードされた有用な情報を活用し,モデルの信頼性を緩和する手法を提案する。
我々は,ラベル付きリソースの量とモデルサイズの違いについて実証研究を行い,特に低リソースシナリオに適用した場合に一貫した改善を示すことにより,本手法の有効性を実証する。
関連論文リスト
- Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Towards Realistic Unsupervised Fine-tuning with CLIP [108.45391206730402]
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Enhancing Speech Recognition Decoding via Layer Aggregation [7.056222499095849]
最上位層を用いて予測したロジットは、ビームサーチが最適結果を得るのを妨げている可能性があることを示す。
本稿では,上位M層を集約し,中間層に符号化された有用な情報を活用し,モデルの信頼性を緩和する予測手法を提案する。
論文 参考訳(メタデータ) (2022-03-21T20:28:06Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。