論文の概要: Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks
- arxiv url: http://arxiv.org/abs/2210.07499v1
- Date: Fri, 14 Oct 2022 03:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:36:18.399074
- Title: Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks
- Title(参考訳): ベイズリスクCTC:シーケンス対シーケンスタスクにおける制御可能なCTCアライメント
- Authors: Jinchuan Tian, Brian Yan, Jianwei Yu, Chao Weng, Dong Yu, Shinji
Watanabe
- Abstract要約: 予測アライメントの望ましい特性を強制するためにベイズリスクCTC(BRCTC)を提案する。
BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
- 参考スコア(独自算出の注目度): 63.189632935619535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sequence-to-Sequence (seq2seq) tasks transcribe the input sequence to a
target sequence. The Connectionist Temporal Classification (CTC) criterion is
widely used in multiple seq2seq tasks. Besides predicting the target sequence,
a side product of CTC is to predict the alignment, which is the most probable
input-long sequence that specifies a hard aligning relationship between the
input and target units. As there are multiple potential aligning sequences
(called paths) that are equally considered in CTC formulation, the choice of
which path will be most probable and become the predicted alignment is always
uncertain. In addition, it is usually observed that the alignment predicted by
vanilla CTC will drift compared with its reference and rarely provides
practical functionalities. Thus, the motivation of this work is to make the CTC
alignment prediction controllable and thus equip CTC with extra
functionalities. The Bayes risk CTC (BRCTC) criterion is then proposed in this
work, in which a customizable Bayes risk function is adopted to enforce the
desired characteristics of the predicted alignment. With the risk function, the
BRCTC is a general framework to adopt some customizable preference over the
paths in order to concentrate the posterior into a particular subset of the
paths. In applications, we explore one particular preference which yields
models with the down-sampling ability and reduced inference costs. By using
BRCTC with another preference for early emissions, we obtain an improved
performance-latency trade-off for online models. Experimentally, the proposed
BRCTC reduces the inference cost of offline models by up to 47% without
performance degradation and cuts down the overall latency of online systems to
an unseen level.
- Abstract(参考訳): Sequence-to-Sequence (seq2seq) タスクは入力シーケンスをターゲットシーケンスに書き起こす。
Connectionist Temporal Classification (CTC) 基準は、複数のSeq2seqタスクで広く使用されている。
ターゲットシーケンスの予測に加えて、ctcの副産物は、入力とターゲットユニット間のハードアライメント関係を特定する最も可能性の高い入力長シーケンスであるアライメントを予測することである。
ctcの定式化において等しく考慮される複数の配列(経路と呼ばれる)が存在するため、どの経路が最も可能性が高く予測されたアライメントになるかの選択は常に不確かである。
加えて、バニラCTCによって予測されるアライメントが基準よりもドリフトし、実用的な機能を与えることはまれである。
したがって、この研究の動機は、CTCアライメント予測を制御可能とし、CTCに余分な機能を持たせることである。
ベイズリスクctc(brctc)基準が提案され、予測されたアライメントの所望の特性を強制するためにカスタマイズ可能なベイズリスク関数が採用された。
リスク関数では、BRCTCはパスの特定のサブセットに後部を集中させるために、パスに対してカスタマイズ可能な優先順位を採用する一般的なフレームワークである。
アプリケーションでは、ダウンサンプリング能力と推論コストを低減したモデルを生成する1つの特定の選好を探索する。
BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
実験的に、提案したBRCTCは、パフォーマンス劣化を伴わずにオフラインモデルの推論コストを最大47%削減し、オンラインシステムの全体的な遅延を、目に見えないレベルに削減する。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Cross-Validation Conformal Risk Control [40.2365781482563]
コンフォーマルリスク制御(CRC)は、従来の点予測器にポストホックを適用してキャリブレーションを保証する手法である。
本稿では,従来のCRCの検証ではなく,クロスバリデーションに基づく新しいCRC手法を提案する。
CV-CRCは、設定された予測子の平均リスクに関する理論的保証を提供する。
論文 参考訳(メタデータ) (2024-01-22T14:26:02Z) - Forking Uncertainties: Reliable Prediction and Model Predictive Control
with Sequence Models via Conformal Risk Control [40.918012779935246]
本稿では,事前設計した確率予測器が生成した予測に基づいて,信頼性の高いエラーバーを生成する,新しいポストホックキャリブレーション手法を提案する。
最先端技術とは異なり、PTS-CRCはカバレッジ以上の信頼性定義を満たすことができる。
PTS-CRC予測と制御の性能を,無線ネットワークの文脈における多くのユースケースの研究により実験的に検証した。
論文 参考訳(メタデータ) (2023-10-16T11:35:41Z) - Align With Purpose: Optimize Desired Properties in CTC Models with a
General Plug-and-Play Framework [8.228892600588765]
Connectionist Temporal Classification (CTC) はシークエンス・ツー・シークエンス(seq2seq)モデルをトレーニングするために広く使われている基準である。
CTC基準でトレーニングされたモデルにおいて、所望のプロパティを強化するために、$textbf General Plug-and-Playフレームワークである$textitAlign With Purposeを提案する。
我々は,ASR(Automatic Speech Recognition)の領域にフレームワークを適用し,その特性選択,アーキテクチャ選択,訓練データセットのスケールといった点において,その汎用性を示す。
論文 参考訳(メタデータ) (2023-07-04T13:34:47Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - CTC-synchronous Training for Monotonic Attention Model [43.0382262234792]
逆向きの確率は、デコーダの左から右への依存性のため、トレーニング中のアライメントプロセスでは利用できない。
我々はCTC同期トレーニング(CTC-ST)を提案し、MoChAはCTCアライメントを用いて最適なモノトニックアライメントを学習する。
モデル全体が協調的に最適化され、MoChAから期待される境界がアライメントと同期される。
論文 参考訳(メタデータ) (2020-05-10T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。