論文の概要: FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire
- arxiv url: http://arxiv.org/abs/2008.02516v4
- Date: Mon, 15 Mar 2021 07:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-02 06:25:54.161395
- Title: FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire
- Title(参考訳): FastLR:Integrate-and-Fireを用いた非自己回帰リリーディングモデル
- Authors: Jinglin Liu, Yi Ren, Zhou Zhao, Chen Zhang, Baoxing Huai, Nicholas
Jing Yuan
- Abstract要約: 我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 74.04394069262108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lipreading is an impressive technique and there has been a definite
improvement of accuracy in recent years. However, existing methods for
lipreading mainly build on autoregressive (AR) model, which generate target
tokens one by one and suffer from high inference latency. To breakthrough this
constraint, we propose FastLR, a non-autoregressive (NAR) lipreading model
which generates all target tokens simultaneously. NAR lipreading is a
challenging task that has many difficulties: 1) the discrepancy of sequence
lengths between source and target makes it difficult to estimate the length of
the output sequence; 2) the conditionally independent behavior of NAR
generation lacks the correlation across time which leads to a poor
approximation of target distribution; 3) the feature representation ability of
encoder can be weak due to lack of effective alignment mechanism; and 4) the
removal of AR language model exacerbates the inherent ambiguity problem of
lipreading. Thus, in this paper, we introduce three methods to reduce the gap
between FastLR and AR model: 1) to address challenges 1 and 2, we leverage
integrate-and-fire (I\&F) module to model the correspondence between source
video frames and output text sequence. 2) To tackle challenge 3, we add an
auxiliary connectionist temporal classification (CTC) decoder to the top of the
encoder and optimize it with extra CTC loss. We also add an auxiliary
autoregressive decoder to help the feature extraction of encoder. 3) To
overcome challenge 4, we propose a novel Noisy Parallel Decoding (NPD) for I\&F
and bring Byte-Pair Encoding (BPE) into lipreading. Our experiments exhibit
that FastLR achieves the speedup up to 10.97$\times$ comparing with
state-of-the-art lipreading model with slight WER absolute increase of 1.5\%
and 5.5\% on GRID and LRS2 lipreading datasets respectively, which demonstrates
the effectiveness of our proposed method.
- Abstract(参考訳): リップリーディングは印象的なテクニックであり、近年は確実に精度が向上している。
しかし,従来のリップリーディング手法は主に自己回帰(AR)モデルに基づいており,ターゲットトークンをひとつずつ生成し,高い推論遅延に悩まされている。
この制約を突破するために,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
ナリー・リップリードは多くの困難を抱えた課題です
1) ソースとターゲット間のシーケンス長の差は,出力シーケンスの長さを推定することが困難になる。
2)nar生成の条件付き独立挙動は,目標分布の近似性を損なう時間間の相関を欠いている。
3)エンコーダの特徴表現能力は,効果的なアライメント機構の欠如により弱くなり得る。
4)AR言語モデルの除去は,リップリーディングの本来の曖昧性問題を悪化させる。
本稿では,FastLRとARモデルのギャップを低減するための3つの手法を提案する。
1) 課題 1 と 2 に対処するため,I\&F (Integration-and-fire) モジュールを活用し,ソース映像フレームと出力テキストシーケンスの対応性をモデル化する。
2) 課題3に取り組むために, エンコーダの上部に補助接続性時間分類(CTC)デコーダを付加し, 余分なCTC損失を伴って最適化する。
また,エンコーダの特徴抽出を支援する補助的な自己回帰デコーダも追加する。
3) 課題4を克服するために,I\&Fのための新しいNuisy Parallel Decoding (NPD) を提案し,Byte-Pair Encoding (BPE) をLipreadingに導入する。
実験の結果,FastLR は GRID と LRS2 でそれぞれ 1.5 % と 5.5 % の精度で,最先端のリップリーディングモデルと比較して 10.97$\times$ の高速化を実現し,提案手法の有効性を示した。
関連論文リスト
- R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。
CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。
本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Accelerating LLM Inference with Lossless Speculative Decoding Algorithms for Heterogeneous Vocabularies [7.14946066475415]
投機的復号法(SD法)は、単一の目標フォワードパスを使用して複数のトークンを生成することにより、実質的な効率向上をもたらす。
既存のSDアプローチでは、ドラフトラとターゲットモデルは同じ語彙を共有する必要があるため、ドラフトラのプールが制限される。
この共有語彙制約を除去する3つの新しいSD手法を提案する。
我々のアルゴリズムは、標準の自己回帰復号よりも最大2.8倍の高速化を示す。
論文 参考訳(メタデータ) (2025-01-31T19:13:58Z) - Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。
FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文 参考訳(メタデータ) (2024-12-17T08:02:08Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。