論文の概要: FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire
- arxiv url: http://arxiv.org/abs/2008.02516v4
- Date: Mon, 15 Mar 2021 07:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:25:54.161395
- Title: FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire
- Title(参考訳): FastLR:Integrate-and-Fireを用いた非自己回帰リリーディングモデル
- Authors: Jinglin Liu, Yi Ren, Zhou Zhao, Chen Zhang, Baoxing Huai, Nicholas
Jing Yuan
- Abstract要約: 我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 74.04394069262108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lipreading is an impressive technique and there has been a definite
improvement of accuracy in recent years. However, existing methods for
lipreading mainly build on autoregressive (AR) model, which generate target
tokens one by one and suffer from high inference latency. To breakthrough this
constraint, we propose FastLR, a non-autoregressive (NAR) lipreading model
which generates all target tokens simultaneously. NAR lipreading is a
challenging task that has many difficulties: 1) the discrepancy of sequence
lengths between source and target makes it difficult to estimate the length of
the output sequence; 2) the conditionally independent behavior of NAR
generation lacks the correlation across time which leads to a poor
approximation of target distribution; 3) the feature representation ability of
encoder can be weak due to lack of effective alignment mechanism; and 4) the
removal of AR language model exacerbates the inherent ambiguity problem of
lipreading. Thus, in this paper, we introduce three methods to reduce the gap
between FastLR and AR model: 1) to address challenges 1 and 2, we leverage
integrate-and-fire (I\&F) module to model the correspondence between source
video frames and output text sequence. 2) To tackle challenge 3, we add an
auxiliary connectionist temporal classification (CTC) decoder to the top of the
encoder and optimize it with extra CTC loss. We also add an auxiliary
autoregressive decoder to help the feature extraction of encoder. 3) To
overcome challenge 4, we propose a novel Noisy Parallel Decoding (NPD) for I\&F
and bring Byte-Pair Encoding (BPE) into lipreading. Our experiments exhibit
that FastLR achieves the speedup up to 10.97$\times$ comparing with
state-of-the-art lipreading model with slight WER absolute increase of 1.5\%
and 5.5\% on GRID and LRS2 lipreading datasets respectively, which demonstrates
the effectiveness of our proposed method.
- Abstract(参考訳): リップリーディングは印象的なテクニックであり、近年は確実に精度が向上している。
しかし,従来のリップリーディング手法は主に自己回帰(AR)モデルに基づいており,ターゲットトークンをひとつずつ生成し,高い推論遅延に悩まされている。
この制約を突破するために,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
ナリー・リップリードは多くの困難を抱えた課題です
1) ソースとターゲット間のシーケンス長の差は,出力シーケンスの長さを推定することが困難になる。
2)nar生成の条件付き独立挙動は,目標分布の近似性を損なう時間間の相関を欠いている。
3)エンコーダの特徴表現能力は,効果的なアライメント機構の欠如により弱くなり得る。
4)AR言語モデルの除去は,リップリーディングの本来の曖昧性問題を悪化させる。
本稿では,FastLRとARモデルのギャップを低減するための3つの手法を提案する。
1) 課題 1 と 2 に対処するため,I\&F (Integration-and-fire) モジュールを活用し,ソース映像フレームと出力テキストシーケンスの対応性をモデル化する。
2) 課題3に取り組むために, エンコーダの上部に補助接続性時間分類(CTC)デコーダを付加し, 余分なCTC損失を伴って最適化する。
また,エンコーダの特徴抽出を支援する補助的な自己回帰デコーダも追加する。
3) 課題4を克服するために,I\&Fのための新しいNuisy Parallel Decoding (NPD) を提案し,Byte-Pair Encoding (BPE) をLipreadingに導入する。
実験の結果,FastLR は GRID と LRS2 でそれぞれ 1.5 % と 5.5 % の精度で,最先端のリップリーディングモデルと比較して 10.97$\times$ の高速化を実現し,提案手法の有効性を示した。
関連論文リスト
- LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。