Fugu-MT 論文翻訳(概要): Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

論文の概要: Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language

arxiv url: http://arxiv.org/abs/2409.00986v1
Date: Mon, 2 Sep 2024 07:05:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:59:10.412377
Title: Personalized Lip Reading: Adapting to Your Unique Lip Movements with Vision and Language
Title（参考訳）: パーソナライズされた唇読み:視覚と言語によるユニークな唇の動きに適応する
Authors: Jeong Hun Yeo, Chae Won Kim, Hyunjun Kim, Hyeongseop Rha, Seunghee Han, Wen-Huang Cheng, Yong Man Ro,
Abstract要約: 唇読解は、唇の動きを分析して音声言語を予測することを目的としている。唇読解技術の進歩にもかかわらず、モデルが見えない話者に適用された場合、性能は低下する。本稿では,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。
参考スコア（独自算出の注目度）: 48.17930606488952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Lip reading aims to predict spoken language by analyzing lip movements. Despite advancements in lip reading technologies, performance degrades when models are applied to unseen speakers due to their sensitivity to variations in visual information such as lip appearances. To address this challenge, speaker adaptive lip reading technologies have advanced by focusing on effectively adapting a lip reading model to target speakers in the visual modality. The effectiveness of adapting language information, such as vocabulary choice, of the target speaker has not been explored in the previous works. Moreover, existing datasets for speaker adaptation have limited vocabulary size and pose variations, limiting the validation of previous speaker-adaptive methods in real-world scenarios. To address these issues, we propose a novel speaker-adaptive lip reading method that adapts a pre-trained model to target speakers at both vision and language levels. Specifically, we integrate prompt tuning and the LoRA approach, applying them to a pre-trained lip reading model to effectively adapt the model to target speakers. In addition, to validate its effectiveness in real-world scenarios, we introduce a new dataset, VoxLRS-SA, derived from VoxCeleb2 and LRS3. It contains a vocabulary of approximately 100K words, offers diverse pose variations, and enables the validation of adaptation methods in wild, sentence-level lip reading for the first time. Through various experiments, we demonstrate that the existing speaker-adaptive method also improves performance in the wild at the sentence level. Moreover, with the proposed adaptation method, we show that the proposed method achieves larger improvements when applied to the target speaker, compared to the previous works.
Abstract（参考訳）: 唇読解は、唇の動きを分析して音声言語を予測することを目的としている。唇読解技術の進歩にもかかわらず、唇の外観などの視覚情報の変化に敏感なため、モデルが見えない話者に適用されると性能が低下する。この課題に対処するために、話者適応型唇読解技術は、視覚的モダリティにおいてターゲット話者に唇読取モデルを効果的に適応させることに集中して進歩してきた。対象話者の語彙選択などの言語情報への適応の有効性については,これまでの研究では検討されていない。さらに、話者適応のための既存のデータセットは語彙のサイズが限られており、実際のシナリオにおける従来の話者適応手法の検証が制限されている。これらの課題に対処するため,視覚レベルと言語レベルの両方の話者を対象に,事前学習モデルを適用した新しい話者適応型唇読解法を提案する。具体的には、プロンプトチューニングとLoRAアプローチを統合し、訓練済みの唇読解モデルに適用し、ターゲット話者に効果的に適用する。さらに,実世界のシナリオでの有効性を検証するために,VoxCeleb2とLSS3から派生した新たなデータセットであるVoxLRS-SAを導入する。約100Kの単語の語彙を含み、多様なポーズのバリエーションを提供し、野生の文レベルの唇読解における適応法の検証を初めて行うことができる。種々の実験を通して,既存の話者適応法は文レベルでの野生における性能も向上することを示した。さらに,提案手法により,提案手法は従来の提案手法と比較して,対象話者に適用した場合の大幅な改善を実現することを示す。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Learning Speaker-Invariant Visual Features for Lipreading [54.670614643480505]
リリーディングは、視覚的な唇の動きを音声テキストに変換することを目的とした、難しいクロスモーダルタスクである。既存の唇読解法は、しばしば、視覚とテキストの間に急激な相関をもたらす話者固有の唇属性を抽出する。 SIFLipは、話者固有の属性をアンタングルする、話者不変の視覚特徴学習フレームワークである。
論文参考訳（メタデータ） (2025-06-09T09:16:14Z)
Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization [4.801824063852808]
そこで本稿では,口輪画像を入力として用いるのではなく,唇の目印をきめ細かな視覚的手がかりとして活用することを提案する。話者不感な潜在表現を捉えるために,最大最小情報正規化手法を提案する。
論文参考訳（メタデータ） (2024-03-24T09:18:21Z)
Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。私たちのアプローチは、既存の方法よりも一貫して優れています。
論文参考訳（メタデータ） (2023-10-08T07:48:25Z)
Lip-to-Speech Synthesis in the Wild with Multi-task Learning [32.65865343643458]
野生環境においても入力された唇の動きから正しい内容で音声を再構成できる強力なLip2Speech法を開発した。音響特徴再構成損失の単語表現不足を補うために,マルチモーダル・インスペクション(テキストと音声)を用いてモデルを指導するマルチタスク学習を設計する。
論文参考訳（メタデータ） (2023-02-17T12:31:26Z)
Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文参考訳（メタデータ） (2023-02-16T06:01:31Z)
LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文参考訳（メタデータ） (2023-02-04T10:22:18Z)
Speaker-adaptive Lip Reading with User-dependent Padding [34.85015917909356]
唇読みは唇の動きのみに基づく音声の予測を目的としている。音声をモデル化するための視覚情報に焦点を当てているため、そのパフォーマンスは本質的に個人の唇の外観や動きに敏感である。話者適応技術は、列車とテスト話者のミスマッチを減らすことを目的としている。
論文参考訳（メタデータ） (2022-08-09T01:59:30Z)
Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文参考訳（メタデータ） (2022-06-04T19:40:02Z)
Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文参考訳（メタデータ） (2021-10-14T17:59:57Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
LiRA: Learning Visual Speech Representations from Audio through Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-16T23:20:06Z)
Mutual Information Maximization for Effective Lip Reading [99.11600901751673]
本稿では,局所的特徴レベルとグローバルなシーケンスレベルの両方について,相互情報制約を導入することを提案する。これら2つの利点を組み合わせることで, 有効な唇読解法として, 識別性と頑健性の両方が期待できる。
論文参考訳（メタデータ） (2020-03-13T18:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。