論文の概要: Who is a Better Talker: Subjective and Objective Quality Assessment for AI-Generated Talking Heads
- arxiv url: http://arxiv.org/abs/2507.23343v1
- Date: Thu, 31 Jul 2025 08:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.326855
- Title: Who is a Better Talker: Subjective and Objective Quality Assessment for AI-Generated Talking Heads
- Title(参考訳): AI生成音声の主観的・客観的品質評価
- Authors: Yingjie Zhou, Jiezhang Cao, Zicheng Zhang, Farong Wen, Yanwei Jiang, Jun Jia, Xiaohong Liu, Xiongkuo Min, Guangtao Zhai,
- Abstract要約: 肖像画の音声駆動方式は、話し言葉の形や顔の動きを合成する能力から、比喩的に「Talkers」として知られている。
テキスト・トゥ・イメージ・モデル(T2I)の急速な発展に伴い、AI生成トーキングヘッド(AGTH)は徐々に新しいデジタルヒューマンメディアになりつつある。
本稿では,現在までに最大規模のAGTH品質評価データセットTHQA-10Kについて述べる。12のT2Iモデルと14の高度な話者を選択し,14のプロンプトでAGTHを生成する。
- 参考スコア(独自算出の注目度): 53.012111671763776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven methods for portraits are figuratively known as "Talkers" because of their capability to synthesize speaking mouth shapes and facial movements. Especially with the rapid development of the Text-to-Image (T2I) models, AI-Generated Talking Heads (AGTHs) have gradually become an emerging digital human media. However, challenges persist regarding the quality of these talkers and AGTHs they generate, and comprehensive studies addressing these issues remain limited. To address this gap, this paper presents the largest AGTH quality assessment dataset THQA-10K to date, which selects 12 prominent T2I models and 14 advanced talkers to generate AGTHs for 14 prompts. After excluding instances where AGTH generation is unsuccessful, the THQA-10K dataset contains 10,457 AGTHs. Then, volunteers are recruited to subjectively rate the AGTHs and give the corresponding distortion categories. In our analysis for subjective experimental results, we evaluate the performance of talkers in terms of generalizability and quality, and also expose the distortions of existing AGTHs. Finally, an objective quality assessment method based on the first frame, Y-T slice and tone-lip consistency is proposed. Experimental results show that this method can achieve state-of-the-art (SOTA) performance in AGTH quality assessment. The work is released at https://github.com/zyj-2000/Talker.
- Abstract(参考訳): 肖像画の音声駆動方式は、話し言葉の形や顔の動きを合成する能力から、比喩的に「Talkers」として知られている。
特に、テキスト・トゥ・イメージ(T2I)モデルの急速な発展に伴い、AI生成トーキング・ヘッド(AGTH)は、徐々に新しいデジタルヒューマンメディアになりつつある。
しかし、これらの話者やそれらが生み出すAGTHの品質に関する課題は継続しており、これらの問題に対処する包括的な研究は依然として限られている。
このギャップに対処するために,本論文では,12の著名なT2Iモデルと14の上級話者を選択し,AGTHを14のプロンプトで生成する,最大規模のAGTH品質評価データセットTHQA-10Kを提案する。
AGTH生成が失敗した場合を除くと、THQA-10Kデータセットは10,457 AGTHを含む。
そして、ボランティアを募集し、AGTHを主観的に評価し、対応する歪みカテゴリを与える。
主観的実験結果の分析では,話者のパフォーマンスを一般化性と品質の観点から評価し,既存のAGTHの歪みを明らかにする。
最後に,第1フレーム,Y-Tスライス,トーンリップの整合性に基づく客観的品質評価手法を提案する。
実験結果から,AGTHの品質評価におけるSOTA(State-of-the-art)の性能が得られた。
この作品はhttps://github.com/zyj-2000/Talker.comで公開されている。
関連論文リスト
- Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - THQA: A Perceptual Quality Assessment Database for Talking Heads [56.42738564463101]
音声駆動方式は、人間の口の形や表情を操作するための新しい道を提供する。
運転法が普及しているにもかかわらず、多くの音声ヘッド(TH)ビデオの品質が懸念されている。
本稿では,8種類の音声駆動方式を用いて800 THビデオを生成するTHQAデータベースについて紹介する。
論文 参考訳(メタデータ) (2024-04-13T13:08:57Z) - AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment [54.93996119324928]
AIGIQA-20Kとして知られる2万のAIGIと420,000の主観評価を備えた、これまでで最大のAIGI主観的品質データベースを作成します。
このデータベース上でベンチマーク実験を行い、16の主流AIGI品質モデルと人間の知覚との対応性を評価する。
論文 参考訳(メタデータ) (2024-04-04T12:12:24Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。