論文の概要: A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos
- arxiv url: http://arxiv.org/abs/2403.06421v1
- Date: Mon, 11 Mar 2024 04:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:23:45.108012
- Title: A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos
- Title(参考訳): 音声駆動音声ヘッドビデオにおける知覚品質指標の比較検討
- Authors: Weixia Zhang and Chengguang Zhu and Jingnan Gao and Yichao Yan and
Guangtao Zhai and Xiaokang Yang
- Abstract要約: 4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
- 参考スコア(独自算出の注目度): 81.54357891748087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Artificial Intelligence Generated Content (AIGC)
technology has propelled audio-driven talking head generation, gaining
considerable research attention for practical applications. However,
performance evaluation research lags behind the development of talking head
generation techniques. Existing literature relies on heuristic quantitative
metrics without human validation, hindering accurate progress assessment. To
address this gap, we collect talking head videos generated from four generative
methods and conduct controlled psychophysical experiments on visual quality,
lip-audio synchronization, and head movement naturalness. Our experiments
validate consistency between model predictions and human annotations,
identifying metrics that align better with human opinions than widely-used
measures. We believe our work will facilitate performance evaluation and model
development, providing insights into AIGC in a broader context. Code and data
will be made available at https://github.com/zwx8981/ADTH-QA.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)技術の急速な進歩は、音声駆動型音声ヘッド生成を推進し、実用的な用途においてかなりの研究の注目を集めている。
しかし,音声ヘッド生成技術の開発には,性能評価研究が遅れている。
既存の文献は人間の検証のないヒューリスティックな定量的指標に依存しており、正確な進捗評価を妨げる。
このギャップに対処するために,4つの生成法から生成された対話型頭部映像を収集し,視覚品質,口唇同期,頭部運動自然性に関する心理物理学実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
私たちの仕事は、パフォーマンス評価とモデル開発を促進し、より広い文脈でAIGCに関する洞察を提供すると思います。
コードとデータはhttps://github.com/zwx8981/ADTH-QAで公開される。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。
我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。
4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文 参考訳(メタデータ) (2024-07-25T16:39:21Z) - THQA: A Perceptual Quality Assessment Database for Talking Heads [56.42738564463101]
音声駆動方式は、人間の口の形や表情を操作するための新しい道を提供する。
運転法が普及しているにもかかわらず、多くの音声ヘッド(TH)ビデオの品質が懸念されている。
本稿では,8種類の音声駆動方式を用いて800 THビデオを生成するTHQAデータベースについて紹介する。
論文 参考訳(メタデータ) (2024-04-13T13:08:57Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。