Fugu-MT 論文翻訳(概要): Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation

論文の概要: Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation

arxiv url: http://arxiv.org/abs/2212.13378v1
Date: Tue, 27 Dec 2022 06:42:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-29 15:53:49.112761
Title: Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation
Title（参考訳）: はっきりしないで! 信頼緩和によるASR復号化
Authors: Tomer Wullach, Shlomo E. Chazan
Abstract要約: ビームサーチは予測分布を用いて最大限の確率で書き起こしを求める最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。細調整されたASRモデルの性能を向上させる復号法を提案する。
参考スコア（独自算出の注目度）: 7.056222499095849
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Speech Recognition (ASR) systems frequently use a search-based decoding strategy aiming to find the best attainable transcript by considering multiple candidates. One prominent speech recognition decoding heuristic is beam search, which seeks the transcript with the greatest likelihood computed using the predicted distribution. While showing substantial performance gains in various tasks, beam search loses some of its effectiveness when the predicted probabilities are highly confident, i.e., the predicted distribution is massed for a single or very few classes. We show that recently proposed Self-Supervised Learning (SSL)-based ASR models tend to yield exceptionally confident predictions that may hamper beam search from truly considering a diverse set of candidates. We perform a layer analysis to reveal and visualize how predictions evolve, and propose a decoding procedure that improves the performance of fine-tuned ASR models. Our proposed approach does not require further training beyond the original fine-tuning, nor additional model parameters. In fact, we find that our proposed method requires significantly less inference computation than current approaches. We propose aggregating the top M layers, potentially leveraging useful information encoded in intermediate layers, and relaxing model confidence. We demonstrate the effectiveness of our approach by conducting an empirical study on varying amounts of labeled resources and different model sizes, showing consistent improvements in particular when applied to low-resource scenarios.
Abstract（参考訳）: 自動音声認識(asr)システムは、複数の候補を考慮し、最適な書き起こしを見つけることを目的とした検索ベースの復号化戦略を頻繁に使用する。ヒューリスティックを復号化する音声認識の一つはビーム探索(beam search)であり、予測分布を用いて計算される最も可能性の高い書き起こしを求める。ビームサーチは様々なタスクにおいて顕著な性能向上を示す一方で、予測確率が高い自信を持つ場合、すなわち予測分布が単一のクラスまたはごく少数のクラスで質量化される場合、その効果のいくつかを失う。近年提案されている自己教師付き学習(ssl)ベースのasrモデルが,ビーム探索を阻害する非常に自信のある予測をもたらす傾向を示した。本研究では,予測の進化過程を明らかにするための層解析を行い,微調整されたASRモデルの性能を向上させる復号手法を提案する。提案手法では,従来の微調整だけでなく,モデルパラメータの追加も必要としない。実際,提案手法では,現在の手法よりも推論計算がかなり少ないことがわかった。我々は,上位m層を集約し,中間層にエンコードされた有用な情報を活用し,モデルの信頼性を緩和する手法を提案する。我々は,ラベル付きリソースの量とモデルサイズの違いについて実証研究を行い,特に低リソースシナリオに適用した場合に一貫した改善を示すことにより,本手法の有効性を実証する。

関連論文リスト

Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Enhancing Speech Recognition Decoding via Layer Aggregation [7.056222499095849]
最上位層を用いて予測したロジットは、ビームサーチが最適結果を得るのを妨げている可能性があることを示す。本稿では,上位M層を集約し,中間層に符号化された有用な情報を活用し,モデルの信頼性を緩和する予測手法を提案する。
論文参考訳（メタデータ） (2022-03-21T20:28:06Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文参考訳（メタデータ） (2021-05-15T00:46:11Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。