Fugu-MT 論文翻訳(概要): 3D Lip Event Detection via Interframe Motion Divergence at Multiple Temporal Resolutions

論文の概要: 3D Lip Event Detection via Interframe Motion Divergence at Multiple Temporal Resolutions

arxiv url: http://arxiv.org/abs/2111.09485v1
Date: Thu, 18 Nov 2021 02:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 22:51:59.813575
Title: 3D Lip Event Detection via Interframe Motion Divergence at Multiple Temporal Resolutions
Title（参考訳）: 複数の時間分解能におけるフレーム間動き分断による3次元リップイベント検出
Authors: Jie Zhang and Robert B. Fisher
Abstract要約: 唇は、人が話しているときに支配的な動的顔の単位である。本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。
参考スコア（独自算出の注目度）: 11.875878259488948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The lip is a dominant dynamic facial unit when a person is speaking. Detecting lip events is beneficial to speech analysis and support for the hearing impaired. This paper proposes a 3D lip event detection pipeline that automatically determines the lip events from a 3D speaking lip sequence. We define a motion divergence measure using 3D lip landmarks to quantify the interframe dynamics of a 3D speaking lip. Then, we cast the interframe motion detection in a multi-temporal-resolution framework that allows the detection to be applicable to different speaking speeds. The experiments on the S3DFM Dataset investigate the overall 3D lip dynamics based on the proposed motion divergence. The proposed 3D pipeline is able to detect opening and closing lip events across 100 sequences, achieving a state-of-the-art performance.
Abstract（参考訳）: 唇は、人が話しているときに支配的な動的顔ユニットである。唇イベントの検出は音声分析や聴覚障害に対するサポートに有用である。本稿では,3次元音声リップシーケンスから自動的に唇イベントを検出する3Dリップイベント検出パイプラインを提案する。本研究では3次元唇ランドマークを用いて3次元唇のフレーム間ダイナミクスの定量化を行う。次に,フレーム間動作検出をマルチタイムレゾリューション・フレームワークにキャストし,異なる発話速度に適用可能とした。 s3dfmデータセットにおける実験は,提案する動きの発散に基づく3次元リップダイナミクス全体の検討を行った。提案する3dパイプラインは,100シーケンスにわたるリップイベントの開閉を検知し,最先端のパフォーマンスを実現する。

関連論文リスト

Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-29T12:08:02Z)
Supervising 3D Talking Head Avatars with Analysis-by-Audio-Synthesis [44.503709089687014]
本稿では,3次元対話型アバターフレームワークTHUNDERを提案する。 THUNDERは、多彩で高品質で表現力のある表情のアニメーションを生成できる一方で、会話ヘッドアバターのリップシンクの質を著しく向上させることを示した。
論文参考訳（メタデータ） (2025-04-18T00:24:52Z)
Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics [14.290468730787772]
音声信号と3次元顔メッシュの複雑な対応をキャプチャする音声-メシュ同期表現を提案する。実験の結果, 知覚的損失を伴う3次元音声音声生成モデルの訓練は, 知覚的に正確な唇同期の3つの側面を著しく改善することがわかった。
論文参考訳（メタデータ） (2025-03-26T08:18:57Z)
KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文参考訳（メタデータ） (2024-09-02T09:41:24Z)
GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer [26.567649613966974]
Graph Latent Transformerに基づく音声駆動型3次元顔アニメーションモデル GLDiTalkerは、量子化された時間潜在空間内の信号を拡散することで、不一致を解消する。 Graph-Enhanced Space Quantized Learning Stageはリップ同期の精度を保証し、Space-Time Powered Latent Diffusion Stageは動きの多様性を高める。
論文参考訳（メタデータ） (2024-08-03T17:18:26Z)
Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文参考訳（メタデータ） (2024-07-01T07:39:28Z)
OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。コードと事前訓練されたモデルは、後にリリースされる。
論文参考訳（メタデータ） (2024-03-28T17:05:04Z)
Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文参考訳（メタデータ） (2024-02-23T19:43:01Z)
Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation [71.08922726494842]
テキスト駆動動作合成におけるタイムライン制御の問題を紹介する。ユーザーは単一のプロンプトの代わりに、重複する可能性のある時間間隔に整理された複数のプロンプトのマルチトラックタイムラインを指定することができる。マルチトラックタイムラインから合成アニメーションを生成するための新しいテスト時間復調手法を提案する。
論文参考訳（メタデータ） (2024-01-16T18:39:15Z)
SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文参考訳（メタデータ） (2023-12-25T04:40:32Z)
DF-3DFace: One-to-Many Speech Synchronized 3D Face Animation with Diffusion [68.85904927374165]
拡散駆動型音声から3次元の顔メッシュ合成であるDF-3DFaceを提案する。拡散に基づく音声と3次元顔の複雑な一対多関係をキャプチャする。最先端の手法よりもリアルな顔アニメーションを同時に実現します。
論文参考訳（メタデータ） (2023-08-23T04:14:55Z)
FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文参考訳（メタデータ） (2021-12-10T04:21:59Z)
SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2021-08-31T05:54:16Z)
Three-Dimensional Lip Motion Network for Text-Independent Speaker Recognition [24.433021731098474]
唇の動きは、話者の行動特性を反映し、話者認識における新しいバイオメトリックスとして使用することができる。文レベルの3D唇動作を利用して,新しい3D唇動作ネットワーク(LMNet)を提案する。新しい地域フィードバックモジュール (RFM) を提案する。
論文参考訳（メタデータ） (2020-10-13T13:18:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。