論文の概要: Three-Dimensional Lip Motion Network for Text-Independent Speaker
Recognition
- arxiv url: http://arxiv.org/abs/2010.06363v1
- Date: Tue, 13 Oct 2020 13:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:05:09.523031
- Title: Three-Dimensional Lip Motion Network for Text-Independent Speaker
Recognition
- Title(参考訳): テキスト非依存話者認識のための3次元唇運動ネットワーク
- Authors: Jianrong Wang and Tong Wu and Shanyu Wang and Mei Yu and Qiang Fang
and Ju Zhang and Li Liu
- Abstract要約: 唇の動きは、話者の行動特性を反映し、話者認識における新しいバイオメトリックスとして使用することができる。
文レベルの3D唇動作を利用して,新しい3D唇動作ネットワーク(LMNet)を提案する。
新しい地域フィードバックモジュール (RFM) を提案する。
- 参考スコア(独自算出の注目度): 24.433021731098474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip motion reflects behavior characteristics of speakers, and thus can be
used as a new kind of biometrics in speaker recognition. In the literature,
lots of works used two-dimensional (2D) lip images to recognize speaker in a
textdependent context. However, 2D lip easily suffers from various face
orientations. To this end, in this work, we present a novel end-to-end 3D lip
motion Network (3LMNet) by utilizing the sentence-level 3D lip motion (S3DLM)
to recognize speakers in both the text-independent and text-dependent contexts.
A new regional feedback module (RFM) is proposed to obtain attentions in
different lip regions. Besides, prior knowledge of lip motion is investigated
to complement RFM, where landmark-level and frame-level features are merged to
form a better feature representation. Moreover, we present two methods, i.e.,
coordinate transformation and face posture correction to pre-process the LSD-AV
dataset, which contains 68 speakers and 146 sentences per speaker. The
evaluation results on this dataset demonstrate that our proposed 3LMNet is
superior to the baseline models, i.e., LSTM, VGG-16 and ResNet-34, and
outperforms the state-of-the-art using 2D lip image as well as the 3D face. The
code of this work is released at
https://github.com/wutong18/Three-Dimensional-Lip-
Motion-Network-for-Text-Independent-Speaker-Recognition.
- Abstract(参考訳): 唇の動きは話者の行動特性を反映するので、話者認識における新しいバイオメトリックスとして使用できる。
文献では、テキスト依存の文脈で話者を認識するために2次元(2次元)唇画像を用いた作品が多い。
しかし、2Dの唇は様々な顔の向きに苦しむ。
そこで本研究では,文レベル3Dリップモーション(S3DLM)を利用して,テキスト非依存とテキスト依存の両文脈で話者を認識することによって,新たなエンドツーエンド3Dリップモーションネットワーク(LMNet)を提案する。
新しい地域フィードバックモジュール (RFM) を提案する。
さらに、唇の動きに関する事前の知識がrfmを補完するために研究され、ランドマークレベルとフレームレベルの機能が統合され、より優れた特徴表現を形成する。
さらに,68の話者と146の文を含むLSD-AVデータセットを前処理するために,座標変換と顔姿勢補正という2つの手法を提案する。
この結果から,提案した3LMNetは,LSTM,VGG-16,ResNet-34といったベースラインモデルよりも優れており,2Dリップ画像および3D顔を用いた最先端技術よりも優れていることが示された。
この作業のコードはhttps://github.com/wutong18/Three-dimensional-LipMotion-Network-for-Text-Independent-Speaker-Recogni tionで公開されている。
関連論文リスト
- S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis [14.437741528053504]
単一ショット音声駆動ラジアンス場(S3D-NeRF)法を設計し,各アイデンティティーに対する代表的外観特徴の学習,音声による異なる顔領域の動作のモデル化,唇領域の時間的一貫性の維持という3つの課題に対処する。
我々のS3D-NeRFは、ビデオの忠実さとオーディオ-リップ同期の両方において、過去の技術を上回っています。
論文 参考訳(メタデータ) (2024-08-18T03:59:57Z) - Learn2Talk: 3D Talking Face Learns from 2D Talking Face [15.99315075587735]
本稿では,より優れた3次元音声対話ネットワークを構築することができるLearn2Talkという学習フレームワークを提案する。
オーディオビデオ同期ネットワークにインスパイアされた3Dシンク・リップエキスパートモデルが,リップシンクの追求のために考案された。
2次元対話顔法から選択された教師モデルを用いて、音声から3次元動きの回帰ネットワークのトレーニングを指導する。
論文 参考訳(メタデータ) (2024-04-19T13:45:14Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - SelfTalk: A Self-Supervised Commutative Training Diagram to Comprehend
3D Talking Faces [28.40393487247833]
音声駆動型3次元顔アニメーション技術とその様々なマルチメディア分野への応用
これまでの研究では、有望なリアルな唇の動きと、音声信号による表情が生み出された。
本稿では,3次元の話し言葉を学習するクロスモーダルネットワークシステムに自己監督を組み込むことにより,新たなフレームワークであるSelfTalkを提案する。
論文 参考訳(メタデータ) (2023-06-19T09:39:10Z) - Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation [58.72068260933836]
コンテキスト対応LipSync-フレームワーク(CALS)
CALSはAudio-to-LipマップモジュールとLip-to-Faceモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-31T04:50:32Z) - LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark
Transformers [43.13868262922689]
重なり合う話者の解釈において、最先端のリップリーディング法が優れている。
これらの手法を未知の話者に一般化することは、破滅的な性能劣化を引き起こす。
視覚ランドマーク変換器(LipFormer)をベースとした文レベルリップリーディングフレームワークを開発した。
論文 参考訳(メタデータ) (2023-02-04T10:22:18Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。