論文の概要: Lightweight Transducer Based on Frame-Level Criterion
- arxiv url: http://arxiv.org/abs/2409.13698v2
- Date: Fri, 1 Nov 2024 06:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:57:35.259192
- Title: Lightweight Transducer Based on Frame-Level Criterion
- Title(参考訳): フレームレベル基準に基づく軽量トランスデューサ
- Authors: Genshun Wan, Mengzhi Wang, Tingzhi Mao, Hang Chen, Zhongfu Ye,
- Abstract要約: 本稿では,CTC強制アライメントアルゴリズムの結果を用いて,フレーム単位のラベルを決定する軽量トランスデューサモデルを提案する。
ラベル中の過剰な空白による不均衡な分類の問題に対処するため、空白と非ブランク確率を分離する。
AISHELL-1の実験では、軽量トランスデューサがトランスデューサと同じような結果が得られることを示した。
- 参考スコア(独自算出の注目度): 14.518972562566642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transducer model trained based on sequence-level criterion requires a lot of memory due to the generation of the large probability matrix. We proposed a lightweight transducer model based on frame-level criterion, which uses the results of the CTC forced alignment algorithm to determine the label for each frame. Then the encoder output can be combined with the decoder output at the corresponding time, rather than adding each element output by the encoder to each element output by the decoder as in the transducer. This significantly reduces memory and computation requirements. To address the problem of imbalanced classification caused by excessive blanks in the label, we decouple the blank and non-blank probabilities and truncate the gradient of the blank classifier to the main network. Experiments on the AISHELL-1 demonstrate that this enables the lightweight transducer to achieve similar results to transducer. Additionally, we use richer information to predict the probability of blank, achieving superior results to transducer.
- Abstract(参考訳): シーケンスレベルの基準に基づいてトレーニングされたトランスデューサモデルは、大きな確率行列を生成するため、多くのメモリを必要とする。
我々は,CTC強制アライメントアルゴリズムの結果を用いて,フレーム単位のラベルを決定する軽量トランスデューサモデルを提案する。
そして、デコーダ出力は、トランスデューサのように、デコーダ出力の各素子にエンコーダ出力を付加するのではなく、対応するタイミングでデコーダ出力と組み合わせることができる。
これにより、メモリと計算の要求が大幅に削減される。
ラベル中の過剰な空白による不均衡な分類の問題に対処するため、空白と非ブランク確率を分離し、空白分類器の勾配をメインネットワークに切り離す。
AISHELL-1の実験では、軽量トランスデューサがトランスデューサと同じような結果が得られることを示した。
さらに、よりリッチな情報を用いてブランクの確率を予測し、トランスデューサに優れた結果を得る。
関連論文リスト
- Threshold Selection for Iterative Decoding of $(v,w)$-regular Binary Codes [84.0257274213152]
繰り返しビットフリップデコーダは、sparse $(v,w)$-regular符号の効率的な選択である。
閉形式モデルに基づくしきい値決定のための具体的な基準を提案する。
論文 参考訳(メタデータ) (2025-01-23T17:38:22Z) - Cluster Decomposition for Improved Erasure Decoding of Quantum LDPC Codes [7.185960422285947]
任意の量子LDPC符号に適用可能な新しい消去復号器を導入する。
制約のないサイズのクラスタを許可することにより、このデコーダは、最大限のML(maximum-likelihood)パフォーマンスを達成する。
私たちが研究した一般的な量子LDPC符号に対しては、クラスタデコーダを用いてML性能曲線を推定することができる。
論文 参考訳(メタデータ) (2024-12-11T23:14:23Z) - The Conformer Encoder May Reverse the Time Dimension [53.9351497436903]
我々は,デコーダのクロスアテンション機構の初期動作を分析し,コンバータエンコーダの自己アテンションを促進する。
本稿では,このフリップを回避する方法とアイデアを提案し,ラベル・フレーム配置アライメントを得るための新しい手法について検討する。
論文 参考訳(メタデータ) (2024-10-01T13:39:05Z) - Label-Looping: Highly Efficient Decoding for Transducers [19.091932566833265]
本稿では,トランスデューサに基づく音声認識モデルのための,高効率なグリーディ復号アルゴリズムを提案する。
実験の結果,ラベルループアルゴリズムはバッチサイズ32を使用する場合,従来のバッチデコードよりも最大2.0倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-06-10T12:34:38Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。