論文の概要: Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language
- arxiv url: http://arxiv.org/abs/2409.00986v2
- Date: Wed, 01 Jan 2025 06:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 17:39:12.675139
- Title: Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language
- Title(参考訳): パーソナライズされた唇読み:視覚と言語によるユニークな唇の動きに適応する
- Authors: Jeong Hun Yeo, Chae Won Kim, Hyunjun Kim, Hyeongseop Rha, Seunghee Han, Wen-Huang Cheng, Yong Man Ro,
- Abstract要約: 唇読解は、唇の動きを分析して音声言語を予測することを目的としている。
唇読解技術の進歩にもかかわらず、モデルが見えない話者に適用された場合、性能は低下する。
本稿では,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
- 参考スコア(独自算出の注目度): 48.17930606488952
- License:
- Abstract: Lip reading aims to predict spoken language by analyzing lip movements. Despite advancements in lip reading technologies, performance degrades when models are applied to unseen speakers due to their sensitivity to variations in visual information such as lip appearances. To address this challenge, speaker adaptive lip reading technologies have advanced by focusing on effectively adapting a lip reading model to target speakers in the visual modality. However, the effectiveness of adapting language information, such as vocabulary choice, of the target speaker has not been explored in previous works. Additionally, existing datasets for speaker adaptation have limited vocabulary sizes and pose variations, which restrict the validation of previous speaker-adaptive methods in real-world scenarios. To address these issues, we propose a novel speaker-adaptive lip reading method that adapts a pre-trained model to target speakers at both vision and language levels. Specifically, we integrate prompt tuning and the LoRA approach, applying them to a pre-trained lip reading model to effectively adapt the model to target speakers. Furthermore, to validate its effectiveness in real-world scenarios, we introduce a new dataset, VoxLRS-SA, derived from VoxCeleb2 and LRS3. It contains a vocabulary of approximately 100K words, offers diverse pose variations, and enables the validation of adaptation methods in the wild, sentence-level lip reading for the first time in English. Through various experiments, we demonstrate that the existing speaker-adaptive method also improves performance in the wild at the sentence level. Moreover, we show that the proposed method achieves larger improvements compared to the previous works.
- Abstract(参考訳): 唇読解は、唇の動きを分析して音声言語を予測することを目的としている。
唇読解技術の進歩にもかかわらず、唇の外観などの視覚情報の変化に敏感なため、モデルが見えない話者に適用されると性能が低下する。
この課題に対処するために、話者適応型唇読解技術は、視覚的モダリティにおいてターゲット話者に唇読取モデルを効果的に適応させることに集中して進歩してきた。
しかし, 従来の研究では, 話者の語彙選択などの言語情報への適応の有効性は検討されていない。
さらに、話者適応のための既存のデータセットは語彙サイズやポーズのバリエーションが限られており、現実のシナリオにおける従来の話者適応手法の検証が制限されている。
これらの課題に対処するため,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
具体的には、プロンプトチューニングとLoRAアプローチを統合し、訓練済みの唇読解モデルに適用し、ターゲット話者に効果的に適用する。
さらに、実世界のシナリオでの有効性を検証するために、VoxCeleb2とLSS3から派生した新しいデータセットVoxLRS-SAを導入する。
約100Kの単語の語彙を含み、多様なポーズのバリエーションを提供し、英語で初めて野生の文レベルの唇読解における適応法の検証を可能にする。
種々の実験を通して,既存の話者適応法は文レベルでの野生における性能も向上することを示した。
さらに, 提案手法は, 従来の研究に比べて, 大幅な改善を達成できることを示す。
関連論文リスト
- Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。
話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T09:18:21Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Lip-to-Speech Synthesis in the Wild with Multi-task Learning [32.65865343643458]
野生環境においても入力された唇の動きから正しい内容で音声を再構成できる強力なLip2Speech法を開発した。
音響特徴再構成損失の単語表現不足を補うために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計する。
論文 参考訳(メタデータ) (2023-02-17T12:31:26Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Speaker-adaptive Lip Reading with User-dependent Padding [34.85015917909356]
唇読みは唇の動きのみに基づく音声の予測を目的としている。
音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。
話者適応技術は、列車とテスト話者のミスマッチを減らすことを目的としている。
論文 参考訳(メタデータ) (2022-08-09T01:59:30Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。