論文の概要: Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2302.08102v1
- Date: Thu, 16 Feb 2023 06:01:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:54:25.820409
- Title: Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech
Recognition
- Title(参考訳): 話者適応型音声認識のためのディープニューラルネットワークのプロンプトチューニング
- Authors: Minsu Kim, Hyung-Il Kim, and Yong Man Ro
- Abstract要約: 話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
- 参考スコア(独自算出の注目度): 32.28306081954454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Speech Recognition (VSR) aims to infer speech into text depending on
lip movements alone. As it focuses on visual information to model the speech,
its performance is inherently sensitive to personal lip appearances and
movements, and this makes the VSR models show degraded performance when they
are applied to unseen speakers. In this paper, to remedy the performance
degradation of the VSR model on unseen speakers, we propose prompt tuning
methods of Deep Neural Networks (DNNs) for speaker-adaptive VSR. Specifically,
motivated by recent advances in Natural Language Processing (NLP), we finetune
prompts on adaptation data of target speakers instead of modifying the
pre-trained model parameters. Different from the previous prompt tuning methods
mainly limited to Transformer variant architecture, we explore different types
of prompts, the addition, the padding, and the concatenation form prompts that
can be applied to the VSR model which is composed of CNN and Transformer in
general. With the proposed prompt tuning, we show that the performance of the
pre-trained VSR model on unseen speakers can be largely improved by using a
small amount of adaptation data (e.g., less than 5 minutes), even if the
pre-trained model is already developed with large speaker variations. Moreover,
by analyzing the performance and parameters of different types of prompts, we
investigate when the prompt tuning is preferred over the finetuning methods.
The effectiveness of the proposed method is evaluated on both word- and
sentence-level VSR databases, LRW-ID and GRID.
- Abstract(参考訳): 視覚音声認識(VSR)は、唇の動きだけで音声をテキストに推論することを目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、パフォーマンスは本質的に唇の外観や動きに敏感であり、vsrモデルでは、見当たらない話者に適用すると劣化したパフォーマンスを示す。
本稿では,未確認話者に対するVSRモデルの性能劣化を改善するために,話者適応型VSRのためのディープニューラルネットワーク(DNN)の高速チューニング手法を提案する。
具体的には、近年の自然言語処理(NLP)の進歩を動機として、事前学習されたモデルパラメータを変更する代わりに、ターゲット話者の適応データに微調整を施す。
トランスフォーマーの変種アーキテクチャに主に制限された従来のプロンプトチューニング手法とは異なり、CNNとトランスフォーマーで構成されるVSRモデルに適用可能な異なる種類のプロンプト、追加、パディング、結合形式プロンプトを探索する。
提案したプロンプトチューニングにより,事前学習したモデルが話者変動が大きい場合でも,少量の適応データ(例:5分以内)を用いることで,未学習話者に対する事前学習VSRモデルの性能を大幅に改善できることを示す。
さらに,異なる種類のプロンプトの性能とパラメータを解析することにより,ファインタニング法よりもプロンプトチューニングが望ましいかを検討する。
提案手法の有効性を,単語レベルのVSRデータベース,LRW-ID,GRIDで評価した。
関連論文リスト
- Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Extending Whisper with prompt tuning to target-speaker ASR [18.31992429200396]
ターゲット話者自動音声認識(Target-Speaker Automatic Speech Recognition, ASR)は、ターゲット話者の所望の音声を重なり合う発話から書き起こすことを目的としている。
既存のターゲットスピーカーASR(TS-ASR)の手法のほとんどは、スクラッチからトレーニングするか、事前訓練されたモデルを完全に微調整するものである。
この研究は、パラメータ効率のよい微調整手法であるプロンプトチューニングを利用して、大規模なシングルストーカーASRモデルであるWhisperをTS-ASRに拡張する。
論文 参考訳(メタデータ) (2023-12-13T11:49:16Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Unsupervised Speech Enhancement using Dynamical Variational
Auto-Encoders [29.796695365217893]
動的変分自動エンコーダ(Dynamical Variational Auto-Encoders, DVAE)は、潜伏変数を持つ深部生成モデルのクラスである。
DVAEの最も一般的な形式に基づく教師なし音声強調アルゴリズムを提案する。
音声強調を行うための変分予測最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-06-23T09:48:38Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。