論文の概要: Towards a Perceptual Model for Estimating the Quality of Visual Speech
- arxiv url: http://arxiv.org/abs/2203.10117v1
- Date: Fri, 18 Mar 2022 18:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-27 04:54:04.879460
- Title: Towards a Perceptual Model for Estimating the Quality of Visual Speech
- Title(参考訳): 視覚音声の質を推定する知覚モデルに向けて
- Authors: Zakaria Aldeneh, Masha Fedzechkina, Skyler Seto, Katherine Metcalf,
Miguel Sarabia, Nicholas Apostoloff, Barry-John Theobald
- Abstract要約: 摂動唇運動と唇運動品質の主観的評価との関係について考察する。
本研究では,この調整が唇運動の質に与える影響をユーザスタディで検証する。
次に、ユーザスタディから収集したスコアを用いてモデルをトレーニングし、アニメーションシーケンスの主観的品質を自動的に予測する。
- 参考スコア(独自算出の注目度): 9.730863921742644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic lip motions to simulate speech production is key for
driving natural character animations from audio. Previous research has shown
that traditional metrics used to optimize and assess models for generating lip
motions from speech are not a good indicator of subjective opinion of animation
quality. Yet, running repetitive subjective studies for assessing the quality
of animations can be time-consuming and difficult to replicate. In this work,
we seek to understand the relationship between perturbed lip motion and
subjective opinion of lip motion quality. Specifically, we adjust the degree of
articulation for lip motion sequences and run a user-study to examine how this
adjustment impacts the perceived quality of lip motion. We then train a model
using the scores collected from our user-study to automatically predict the
subjective quality of an animated sequence. Our results show that (1) users
score lip motions with slight over-articulation the highest in terms of
perceptual quality; (2) under-articulation had a more detrimental effect on
perceived quality of lip motion compared to the effect of over-articulation;
and (3) we can automatically estimate the subjective perceptual score for a
given lip motion sequences with low error rates.
- Abstract(参考訳): 音声から自然なキャラクタアニメーションを駆動するためには,現実的な唇の動きを生成することが重要である。
これまでの研究では、音声から唇の動きを生成するためのモデルの最適化と評価に使用される伝統的な指標は、アニメーションの品質に対する主観的な意見のよい指標ではないことが示されている。
しかし、アニメーションの品質を評価するために反復的な主観的研究を行うことは時間がかかり、複製が困難である。
本研究では,摂動唇運動と唇運動品質の主観的評価との関係について考察する。
具体的には, 唇運動系列の調音度を調整し, この調整が唇運動の知覚的品質にどう影響するかをユーザスタディで調査する。
そして、ユーザから収集したスコアを使ってモデルをトレーニングし、アニメーションシーケンスの主観的品質を自動的に予測します。
以上の結果から, ユーザは, 知覚的品質の面では, 若干の過剰発話で唇運動をスコア付けし, (2) 過発話は知覚的唇運動の質に対して, 過剰発話の効果と比較してより有害な効果を示し, (3) 所定の唇運動系列に対する主観的知覚スコアを, 誤差率の低さで自動的に推定できることがわかった。
関連論文リスト
- Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Learning Speaker-specific Lip-to-Speech Generation [28.620557933595585]
本研究は,個々の話者の唇の動きの順序と発話の関連性を理解することを目的とする。
我々はディープメトリック学習を用いて時間同期を学習し、デコーダを誘導し、入力された唇の動きと同期して音声を生成する。
我々は,Grid and Lip2Wav Chemistryの講義データセットを用いて,単一話者自然言語生成タスクの評価を行った。
論文 参考訳(メタデータ) (2022-06-04T19:40:02Z) - Data standardization for robust lip sync [10.235718439446044]
既存のリップシンクメソッドは、野生では堅牢ではない。
重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。
本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-13T04:09:21Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。