論文の概要: Bayes Risk Transducer: Transducer with Controllable Alignment Prediction
- arxiv url: http://arxiv.org/abs/2308.10107v1
- Date: Sat, 19 Aug 2023 20:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:48:36.791406
- Title: Bayes Risk Transducer: Transducer with Controllable Alignment Prediction
- Title(参考訳): ベイズリスクトランスデューサ:制御可能なアライメント予測を備えたトランスデューサ
- Authors: Jinchuan Tian, Jianwei Yu, Hangting Chen, Brian Yan, Chao Weng, Dong
Yu, Shinji Watanabe
- Abstract要約: ベイズリスクトランスデューサ(BRT)は、望ましい経路を強制し、制御可能なアライメント予測を実現することを提案した。
BRTは、非ストリーミングASRの推論コストを最大46%削減し、ストリーミングASRのシステム全体のレイテンシを41%削減する。
- 参考スコア(独自算出の注目度): 79.41540601816315
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic speech recognition (ASR) based on transducers is widely used. In
training, a transducer maximizes the summed posteriors of all paths. The path
with the highest posterior is commonly defined as the predicted alignment
between the speech and the transcription. While the vanilla transducer does not
have a prior preference for any of the valid paths, this work intends to
enforce the preferred paths and achieve controllable alignment prediction.
Specifically, this work proposes Bayes Risk Transducer (BRT), which uses a
Bayes risk function to set lower risk values to the preferred paths so that the
predicted alignment is more likely to satisfy specific desired properties. We
further demonstrate that these predicted alignments with intentionally designed
properties can provide practical advantages over the vanilla transducer.
Experimentally, the proposed BRT saves inference cost by up to 46% for
non-streaming ASR and reduces overall system latency by 41% for streaming ASR.
- Abstract(参考訳): トランスデューサに基づく自動音声認識(asr)が広く用いられている。
訓練では、トランスデューサは全ての経路の合計後方を最大化する。
後部が最も高い経路は、通常、音声と転写の間の予測されたアライメントとして定義される。
バニラトランスデューサは有効な経路を優先しないが、この作業は望ましい経路を強制し、制御可能なアライメント予測を達成することを目的としている。
具体的には,bayes risk transducer (brt) を提案する。これはbayes risk関数を用いて,予測されたアライメントが特定の望ましい特性をより満たせるように,より低いリスク値を望ましいパスに設定する。
さらに,これらの予測アライメントがバニラトランスデューサに対して実用的な利点をもたらすことを示す。
実験的に提案されたBRTは、非ストリーミングASRの推論コストを最大46%削減し、ストリーミングASRのシステム全体のレイテンシを41%削減する。
関連論文リスト
- Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - Rolling Shutter Correction with Intermediate Distortion Flow Estimation [55.59359977619609]
本稿では,グローバルシャッタ(GS)からRSへの歪み流を直接推定することにより,ローリングシャッタ(RS)歪み画像を補正することを提案する。
既存の手法は通常、RSからGSへの非歪流を用いて補正を行う。
本稿では,歪み流を直接推定し,後方ワープ操作でRS像を補正する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-09T14:40:54Z) - Algorithm for AGC index management against crowded radio environment [0.0]
本稿では,パケット受信に使用する最適な自動利得制御(AGC)指数,あるいは最も適切な可変利得範囲を推定し,ペイロード受信中に出現する干渉者を予測した。
これにより、受信機は、ゲインフリードペイロード受信期間中に発生しても干渉者に高い免疫を与えることができ、なおかつ、最適な感度レベルを確保できる。
論文 参考訳(メタデータ) (2024-03-19T05:42:29Z) - Intelligent Anomaly Detection for Lane Rendering Using Transformer with Self-Supervised Pre-Training and Customized Fine-Tuning [8.042684255871707]
本稿では,車線描画画像の異常検出を分類問題に変換する。
本研究では,データ前処理,マスク付き画像モデリング(MiM)手法による自己教師付き事前学習,ラベル平滑化によるクロスエントロピーベース損失を用いた微調整,後処理からなる4相パイプラインを提案する。
その結果,提案パイプラインは車線描画画像異常検出において優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-12-07T16:10:10Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Automatic Detection of Rail Components via A Deep Convolutional
Transformer Network [7.557470133155959]
レール,クリップ,ボルトを含む多種鉄道部品を検出するための深層畳み込み変圧器ネットワーク方式を提案する。
提案手法は,アンカーボックス,アスペクト比,デフォルト座標,後処理などの事前設定を不要にすることで,検出パイプラインを単純化する。
総合的な計算結果から,提案手法は既存の最先端手法よりも大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-08-05T07:38:04Z) - A Secure Deep Probabilistic Dynamic Thermal Line Rating Prediction [0.0]
本稿では、動的熱線評価(DTLR)の時差予測のための安全かつ鋭い確率予測モデルを提案する。
提案したDTLRのセキュリティは、実際のDTLRを超えるDTLR予測の頻度を制限する。
カスタマイズされたコスト関数を導入することで、ディープニューラルネットワークは、要求される超過確率に基づいてDTLRセキュリティを検討するように訓練される。
論文 参考訳(メタデータ) (2020-11-21T23:20:58Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。