論文の概要: 3D Lip Event Detection via Interframe Motion Divergence at Multiple
Temporal Resolutions
- arxiv url: http://arxiv.org/abs/2111.09485v1
- Date: Thu, 18 Nov 2021 02:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 22:51:59.813575
- Title: 3D Lip Event Detection via Interframe Motion Divergence at Multiple
Temporal Resolutions
- Title(参考訳): 複数の時間分解能におけるフレーム間動き分断による3次元リップイベント検出
- Authors: Jie Zhang and Robert B. Fisher
- Abstract要約: 唇は、人が話しているときに支配的な動的顔の単位である。
本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。
- 参考スコア(独自算出の注目度): 11.875878259488948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lip is a dominant dynamic facial unit when a person is speaking.
Detecting lip events is beneficial to speech analysis and support for the
hearing impaired. This paper proposes a 3D lip event detection pipeline that
automatically determines the lip events from a 3D speaking lip sequence. We
define a motion divergence measure using 3D lip landmarks to quantify the
interframe dynamics of a 3D speaking lip. Then, we cast the interframe motion
detection in a multi-temporal-resolution framework that allows the detection to
be applicable to different speaking speeds. The experiments on the S3DFM
Dataset investigate the overall 3D lip dynamics based on the proposed motion
divergence. The proposed 3D pipeline is able to detect opening and closing lip
events across 100 sequences, achieving a state-of-the-art performance.
- Abstract(参考訳): 唇は、人が話しているときに支配的な動的顔ユニットである。
唇イベントの検出は音声分析や聴覚障害に対するサポートに有用である。
本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。
本研究では3次元唇ランドマークを用いて3次元唇のフレーム間ダイナミクスの定量化を行う。
次に,フレーム間動作検出をマルチタイムレゾリューション・フレームワークにキャストし,異なる発話速度に適用可能とした。
s3dfmデータセットにおける実験は,提案する動きの発散に基づく3次元リップダイナミクス全体の検討を行った。
提案する3dパイプラインは,100シーケンスにわたるリップイベントの開閉を検知し,最先端のパフォーマンスを実現する。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation [71.08922726494842]
テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。
ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。
マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:39:15Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with
Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。
拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。
最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文 参考訳(メタデータ) (2023-08-23T04:14:55Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Three-Dimensional Lip Motion Network for Text-Independent Speaker
Recognition [24.433021731098474]
唇の動きは、話者の行動特性を反映し、話者認識における新しいバイオメトリックスとして使用することができる。
文レベルの3D唇動作を利用して,新しい3D唇動作ネットワーク(LMNet)を提案する。
新しい地域フィードバックモジュール (RFM) を提案する。
論文 参考訳(メタデータ) (2020-10-13T13:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。