論文の概要: JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition
- arxiv url: http://arxiv.org/abs/2403.18843v1
- Date: Mon, 4 Mar 2024 00:30:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:25:04.090813
- Title: JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition
- Title(参考訳): JEP-KD:視覚音声認識のための予測アーキテクチャに基づく知識蒸留
- Authors: Chang Sun, Hong Yang, Bo Qin,
- Abstract要約: 本稿では,JEPA(Joint-Embedding Predictive Architecture)を用いた高度な知識蒸留手法を提案する。
JEP-KDの中心は、埋め込み層に生成ネットワークを組み込むことで、セマンティックな特徴抽出のためのビデオエンコーダの能力を高める。
実験の結果、JEP-KDはVSRモデルの性能を大幅に改善し、異なるVSRプラットフォーム間での汎用性を実証している。
- 参考スコア(独自算出の注目度): 16.7576175698164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Speech Recognition (VSR) tasks are generally recognized to have a lower theoretical performance ceiling than Automatic Speech Recognition (ASR), owing to the inherent limitations of conveying semantic information visually. To mitigate this challenge, this paper introduces an advanced knowledge distillation approach using a Joint-Embedding Predictive Architecture (JEPA), named JEP-KD, designed to more effectively utilize audio features during model training. Central to JEP-KD is the inclusion of a generative network within the embedding layer, which enhances the video encoder's capacity for semantic feature extraction and brings it into closer alignment with the audio features from a pre-trained ASR model's encoder. This approach aims to progressively reduce the performance gap between VSR and ASR. Moreover, a comprehensive multimodal, multistage training regimen for the JEP-KD framework is established, bolstering the robustness and efficacy of the training process. Experiment results demonstrate that JEP-KD significantly improves the performance of VSR models and demonstrates versatility across different VSR platforms, indicating its potential for broader application within other multimodal tasks.
- Abstract(参考訳): 視覚音声認識(VSR)タスクは、視覚的に意味情報を伝達する固有の制限のため、一般的には、自動音声認識(ASR)よりも理論的性能天井が低いと認識される。
そこで本研究では,JEP-KD(Joint-Embedding Predictive Architecture)と名づけられたJEP-KD(Joint-Embedding Predictive Architecture)を用いた高度な知識蒸留手法を提案する。
JEP-KDの中心は、埋め込み層に生成ネットワークを組み込むことで、ビデオエンコーダのセマンティックな特徴抽出能力を高め、事前訓練されたASRモデルのエンコーダのオーディオ機能と密に連携させる。
このアプローチは、VSRとASRのパフォーマンスギャップを徐々に小さくすることを目的としている。
また、JEP-KDフレームワークのための総合的なマルチモーダル・マルチステージトレーニング体制を確立し、トレーニングプロセスの堅牢性と有効性を高める。
実験の結果、JEP-KDはVSRモデルの性能を大幅に改善し、異なるVSRプラットフォーム間での汎用性を実証し、他のマルチモーダルタスクにおける広範なアプリケーションの可能性を示している。
関連論文リスト
- Resource Governance in Networked Systems via Integrated Variational Autoencoders and Reinforcement Learning [0.8287206589886879]
本稿では,変分オートエンコーダ(VAE)と強化学習(RL)を統合し,システム性能のバランスをとるフレームワークを提案する。
この手法の重要な革新は、ネットワーク構造の広大なアクション空間を扱う能力である。
論文 参考訳(メタデータ) (2024-10-30T18:57:02Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。