論文の概要: 3D Lip Event Detection via Interframe Motion Divergence at Multiple
Temporal Resolutions
- arxiv url: http://arxiv.org/abs/2111.09485v1
- Date: Thu, 18 Nov 2021 02:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 22:51:59.813575
- Title: 3D Lip Event Detection via Interframe Motion Divergence at Multiple
Temporal Resolutions
- Title(参考訳): 複数の時間分解能におけるフレーム間動き分断による3次元リップイベント検出
- Authors: Jie Zhang and Robert B. Fisher
- Abstract要約: 唇は、人が話しているときに支配的な動的顔の単位である。
本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 11.875878259488948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lip is a dominant dynamic facial unit when a person is speaking.
Detecting lip events is beneficial to speech analysis and support for the
hearing impaired. This paper proposes a 3D lip event detection pipeline that
automatically determines the lip events from a 3D speaking lip sequence. We
define a motion divergence measure using 3D lip landmarks to quantify the
interframe dynamics of a 3D speaking lip. Then, we cast the interframe motion
detection in a multi-temporal-resolution framework that allows the detection to
be applicable to different speaking speeds. The experiments on the S3DFM
Dataset investigate the overall 3D lip dynamics based on the proposed motion
divergence. The proposed 3D pipeline is able to detect opening and closing lip
events across 100 sequences, achieving a state-of-the-art performance.
- Abstract(参考訳): 唇は、人が話しているときに支配的な動的顔ユニットである。
唇イベントの検出は音声分析や聴覚障害に対するサポートに有用である。
本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。
本研究では3次元唇ランドマークを用いて3次元唇のフレーム間ダイナミクスの定量化を行う。
次に,フレーム間動作検出をマルチタイムレゾリューション・フレームワークにキャストし,異なる発話速度に適用可能とした。
s3dfmデータセットにおける実験は,提案する動きの発散に基づく3次元リップダイナミクス全体の検討を行った。
提案する3dパイプラインは,100シーケンスにわたるリップイベントの開閉を検知し,最先端のパフォーマンスを実現する。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation [68.70007851535203]
テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。
ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。
マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:39:15Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - A Novel Speech-Driven Lip-Sync Model with CNN and LSTM [12.747541089354538]
可変長音声入力から3次元テンプレート顔モデルの変位を生成するために,一次元畳み込みとLSTMを組み合わせたディープニューラルネットワークを提案する。
異なる音声信号に対するネットワークのロバスト性を高めるために,訓練された音声認識モデルを適用して音声特徴を抽出する。
本モデルでは, 音声に同期したスムーズで自然な唇の動きを生成できることが示されている。
論文 参考訳(メタデータ) (2022-05-02T13:57:50Z) - Lip movements information disentanglement for lip sync [4.4394493386740415]
本稿では,パラメトリックな3次元顔モデルを用いて唇の動きを明瞭に分離する手法を提案する。
本研究では, 摂動因子の影響が, 唇運動情報と顔の合成によって緩和されると, リップシンク作業はより少ないデータでより良く行うことができることを示した。
論文 参考訳(メタデータ) (2022-02-13T04:09:21Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Three-Dimensional Lip Motion Network for Text-Independent Speaker
Recognition [24.433021731098474]
唇の動きは、話者の行動特性を反映し、話者認識における新しいバイオメトリックスとして使用することができる。
文レベルの3D唇動作を利用して,新しい3D唇動作ネットワーク(LMNet)を提案する。
新しい地域フィードバックモジュール (RFM) を提案する。
論文 参考訳(メタデータ) (2020-10-13T13:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。