論文の概要: Edit Distance based RL for RNNT decoding
- arxiv url: http://arxiv.org/abs/2306.01789v1
- Date: Wed, 31 May 2023 16:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:47:48.244815
- Title: Edit Distance based RL for RNNT decoding
- Title(参考訳): RNNTデコードのための編集距離ベースRL
- Authors: Dongseong Hwang, Changwan Ryu, Khe Chai Sim
- Abstract要約: RNN-Tは、様々なベンチマークテストにおける例外的なWERのため、ASRの業界標準と見なされている。
本稿では,トレーニング時間と推論時間とのギャップを最小化する強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 5.5422996071699036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RNN-T is currently considered the industry standard in ASR due to its
exceptional WERs in various benchmark tests and its ability to support seamless
streaming and longform transcription. However, its biggest drawback lies in the
significant discrepancy between its training and inference objectives. During
training, RNN-T maximizes all alignment probabilities by teacher forcing, while
during inference, it uses beam search which may not necessarily find the
maximum probable alignment. Additionally, RNN-T's inability to experience
mistakes during teacher forcing training makes it more problematic when a
mistake occurs in inference. To address this issue, this paper proposes a
Reinforcement Learning method that minimizes the gap between training and
inference time. Our Edit Distance based RL (EDRL) approach computes rewards
based on the edit distance, and trains the network at every action level. The
proposed approach yielded SoTA WERs on LibriSpeech for the 600M Conformer RNN-T
model.
- Abstract(参考訳): RNN-Tは現在、様々なベンチマークテストにおける例外的なWERと、シームレスなストリーミングと長文の書き起こしをサポートする能力のために、ASRの業界標準と考えられている。
しかし、最大の欠点は、そのトレーニングと推論の目的が著しく異なることである。
訓練中、rnn-tは教師の強制によって全てのアライメント確率を最大化するが、推論では最大アライメントを見つけるとは限らないビーム探索を用いる。
さらに、RNN-Tが教師の強制訓練中にミスを経験できないことは、推論におけるミスの発生をより問題にする。
そこで本研究では,トレーニング時間と推論時間とのギャップを最小化する強化学習手法を提案する。
我々のEDRL(Edit Distance based RL)アプローチは、編集距離に基づいて報酬を計算し、各アクションレベルでネットワークを訓練する。
提案手法は600M Conformer RNN-TモデルのLibriSpeech上でSoTA WERを出力する。
関連論文リスト
- Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition [21.65651608697333]
RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では,N-bestリストにおける各仮説に対する全てのアライメントの総和スコアを再計算する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
論文 参考訳(メタデータ) (2020-07-27T18:33:35Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。