論文の概要: Lightweight Transducer Based on Frame-Level Criterion
- arxiv url: http://arxiv.org/abs/2409.13698v2
- Date: Fri, 1 Nov 2024 06:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:57:35.259192
- Title: Lightweight Transducer Based on Frame-Level Criterion
- Title(参考訳): フレームレベル基準に基づく軽量トランスデューサ
- Authors: Genshun Wan, Mengzhi Wang, Tingzhi Mao, Hang Chen, Zhongfu Ye,
- Abstract要約: 本稿では,CTC強制アライメントアルゴリズムの結果を用いて,フレーム単位のラベルを決定する軽量トランスデューサモデルを提案する。
ラベル中の過剰な空白による不均衡な分類の問題に対処するため、空白と非ブランク確率を分離する。
AISHELL-1の実験では、軽量トランスデューサがトランスデューサと同じような結果が得られることを示した。
- 参考スコア(独自算出の注目度): 14.518972562566642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transducer model trained based on sequence-level criterion requires a lot of memory due to the generation of the large probability matrix. We proposed a lightweight transducer model based on frame-level criterion, which uses the results of the CTC forced alignment algorithm to determine the label for each frame. Then the encoder output can be combined with the decoder output at the corresponding time, rather than adding each element output by the encoder to each element output by the decoder as in the transducer. This significantly reduces memory and computation requirements. To address the problem of imbalanced classification caused by excessive blanks in the label, we decouple the blank and non-blank probabilities and truncate the gradient of the blank classifier to the main network. Experiments on the AISHELL-1 demonstrate that this enables the lightweight transducer to achieve similar results to transducer. Additionally, we use richer information to predict the probability of blank, achieving superior results to transducer.
- Abstract(参考訳): シーケンスレベルの基準に基づいてトレーニングされたトランスデューサモデルは、大きな確率行列を生成するため、多くのメモリを必要とする。
我々は,CTC強制アライメントアルゴリズムの結果を用いて,フレーム単位のラベルを決定する軽量トランスデューサモデルを提案する。
そして、デコーダ出力は、トランスデューサのように、デコーダ出力の各素子にエンコーダ出力を付加するのではなく、対応するタイミングでデコーダ出力と組み合わせることができる。
これにより、メモリと計算の要求が大幅に削減される。
ラベル中の過剰な空白による不均衡な分類の問題に対処するため、空白と非ブランク確率を分離し、空白分類器の勾配をメインネットワークに切り離す。
AISHELL-1の実験では、軽量トランスデューサがトランスデューサと同じような結果が得られることを示した。
さらに、よりリッチな情報を用いてブランクの確率を予測し、トランスデューサに優れた結果を得る。
関連論文リスト
- The Conformer Encoder May Reverse the Time Dimension [53.9351497436903]
我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。
本稿では,このフリップを回避する方法とアイデアを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:39:05Z) - Label-Looping: Highly Efficient Decoding for Transducers [19.091932566833265]
本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。
実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-06-10T12:34:38Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference [13.000030080938078]
トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Error-rate-agnostic decoding of topological stabilizer codes [0.0]
我々は、位相フリップとビットフリップの相対確率というバイアスに依存するデコーダを開発するが、誤差率には依存しない。
我々のデコーダは、与えられたシンドロームの同値類における最も可能性の高いエラー連鎖の数と有効重みを数えることに基づいている。
論文 参考訳(メタデータ) (2021-12-03T15:45:12Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。