論文の概要: THQA: A Perceptual Quality Assessment Database for Talking Heads
- arxiv url: http://arxiv.org/abs/2404.09003v1
- Date: Sat, 13 Apr 2024 13:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:43:54.763119
- Title: THQA: A Perceptual Quality Assessment Database for Talking Heads
- Title(参考訳): THQA:トーキング・ヘッドのための知覚的品質評価データベース
- Authors: Yingjie Zhou, Zicheng Zhang, Wei Sun, Xiaohong Liu, Xiongkuo Min, Zhihua Wang, Xiao-Ping Zhang, Guangtao Zhai,
- Abstract要約: 音声駆動方式は、人間の口の形や表情を操作するための新しい道を提供する。
運転法が普及しているにもかかわらず、多くの音声ヘッド(TH)ビデオの品質が懸念されている。
本稿では,8種類の音声駆動方式を用いて800 THビデオを生成するTHQAデータベースについて紹介する。
- 参考スコア(独自算出の注目度): 56.42738564463101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of media technology, digital humans have gained prominence due to rapid advancements in computer technology. However, the manual modeling and control required for the majority of digital humans pose significant obstacles to efficient development. The speech-driven methods offer a novel avenue for manipulating the mouth shape and expressions of digital humans. Despite the proliferation of driving methods, the quality of many generated talking head (TH) videos remains a concern, impacting user visual experiences. To tackle this issue, this paper introduces the Talking Head Quality Assessment (THQA) database, featuring 800 TH videos generated through 8 diverse speech-driven methods. Extensive experiments affirm the THQA database's richness in character and speech features. Subsequent subjective quality assessment experiments analyze correlations between scoring results and speech-driven methods, ages, and genders. In addition, experimental results show that mainstream image and video quality assessment methods have limitations for the THQA database, underscoring the imperative for further research to enhance TH video quality assessment. The THQA database is publicly accessible at https://github.com/zyj-2000/THQA.
- Abstract(参考訳): メディア技術の分野では、デジタル人間はコンピュータ技術の急速な進歩によって有名になった。
しかし、デジタル人間の大部分に必要な手動のモデリングと制御は、効率的な開発に重大な障害をもたらす。
音声駆動方式は、デジタル人間の口形状と表情を操作するための新しい道を提供する。
運転法の普及にもかかわらず、多数の音声ヘッド(TH)ビデオの品質は依然として問題であり、ユーザ・ビジュアル・エクスペリエンスに影響を及ぼす。
この問題に対処するために,8つの多様な音声駆動方式を用いて800 THビデオを生成するTHQA(Talking Head Quality Assessment)データベースを提案する。
広範囲にわたる実験は、THQAデータベースの文字と音声の特徴の豊かさを裏付けるものである。
その後の主観的品質評価実験は、スコアリング結果と音声駆動手法、年齢、性別の相関を解析した。
さらに、実験結果から、主流画像と映像品質評価手法は、THQAデータベースに制限があり、THビデオ品質評価を強化するためのさらなる研究の必要性が強調されている。
THQAデータベースはhttps://github.com/zyj-2000/THQAで公開されている。
関連論文リスト
- A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - A No-Reference Quality Assessment Method for Digital Human Head [56.17852258306602]
我々は、デジタルヒューマン品質評価(DHQA)を扱うトランスフォーマーに基づく新しいノリフレクション(NR)手法を開発した。
具体的には、デジタル人間の前方2次元投影を入力として描画し、特徴抽出に視覚変換器(ViT)を用いる。
次に,歪み型を共同分類し,デジタル人間の知覚品質レベルを予測するマルチタスクモジュールを設計する。
論文 参考訳(メタデータ) (2023-10-25T16:01:05Z) - Advancing Zero-Shot Digital Human Quality Assessment through
Text-Prompted Evaluation [60.873105678086404]
SJTU-H3Dは、フルボディのデジタル人間向けに設計された主観的品質評価データベースである。
高品質なデジタル人間40人と、7種類の歪みで生成された1,120個のラベル付き歪曲した人物からなる。
論文 参考訳(メタデータ) (2023-07-06T06:55:30Z) - Audio-Visual Quality Assessment for User Generated Content: Database and
Method [61.970768267688086]
既存のVQA研究の多くは、ユーザのQoEが付随する音声信号にも依存していることを無視して、ビデオの視覚的歪みのみに焦点を当てている。
SJTU-UAVデータベースと呼ばれる最初のAVQAデータベースを構築する。
また、サポートベクタ回帰器(SVR)を介して、一般的なVQA手法とオーディオ機能を融合したAVQAモデルのファミリーを設計する。
実験の結果,VQAモデルは,音声信号の助けを借りて,より正確な品質評価を行うことができた。
論文 参考訳(メタデータ) (2023-03-04T11:49:42Z) - DDH-QA: A Dynamic Digital Humans Quality Assessment Database [55.69700918818879]
多様な動作内容と複数の歪みを有する大規模デジタル人文品質評価データベースを構築した。
DDHを駆動するために10種類の共通運動が使用され、最後に合計800個のDDHが生成される。
論文 参考訳(メタデータ) (2022-12-24T13:35:31Z) - Perceptual Quality Assessment for Digital Human Heads [35.801468849447126]
3次元走査型デジタルヒューマンヘッド(DHHs)のための最初の大規模品質評価データベースを提案する。
構築されたデータベースは、55の参照DHHと1,540の歪んだDHHと、主観的知覚評価からなる。
実験の結果,本手法は主要なFR測定値の最先端性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-09-20T06:02:57Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。