論文の概要: EvalTalker: Learning to Evaluate Real-Portrait-Driven Multi-Subject Talking Humans
- arxiv url: http://arxiv.org/abs/2512.01340v1
- Date: Mon, 01 Dec 2025 06:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.726448
- Title: EvalTalker: Learning to Evaluate Real-Portrait-Driven Multi-Subject Talking Humans
- Title(参考訳): EvalTalker: 実画像駆動型多目的発話評価の学習
- Authors: Yingjie Zhou, Xilei Zhu, Siyu Ren, Ziyi Zhao, Ziwen Wang, Farong Wen, Yu Zhou, Jiezhang Cao, Xiongkuo Min, Fengjiao Chen, Xiaoyu Li, Xuezhi Cao, Guangtao Zhai, Xiaohong Liu,
- Abstract要約: THQA-MTは,最初の大規模マルチ話者生成音声品質評価データセットである。
異なるマルチ話者間の知覚的不一致を分析し,12種類の歪みを同定する。
本稿では,新しいTH品質評価フレームワークであるEvalTalkerを紹介する。
- 参考スコア(独自算出の注目度): 86.21111833841684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven Talking Human (TH) generation, commonly known as "Talker," currently faces limitations in multi-subject driving capabilities. Extending this paradigm to "Multi-Talker," capable of animating multiple subjects simultaneously, introduces richer interactivity and stronger immersion in audiovisual communication. However, current Multi-Talkers still exhibit noticeable quality degradation caused by technical limitations, resulting in suboptimal user experiences. To address this challenge, we construct THQA-MT, the first large-scale Multi-Talker-generated Talking Human Quality Assessment dataset, consisting of 5,492 Multi-Talker-generated THs (MTHs) from 15 representative Multi-Talkers using 400 real portraits collected online. Through subjective experiments, we analyze perceptual discrepancies among different Multi-Talkers and identify 12 common types of distortion. Furthermore, we introduce EvalTalker, a novel TH quality assessment framework. This framework possesses the ability to perceive global quality, human characteristics, and identity consistency, while integrating Qwen-Sync to perceive multimodal synchrony. Experimental results demonstrate that EvalTalker achieves superior correlation with subjective scores, providing a robust foundation for future research on high-quality Multi-Talker generation and evaluation.
- Abstract(参考訳): 音声駆動型トーキングヒューマン(TH)生成(通称「Talker」)は、現在、多目的駆動能力の限界に直面している。
このパラダイムを複数の主題を同時にアニメーションできる"Multi-Talker"に拡張することで、よりリッチな対話性とより強力な音声視覚コミュニケーションが実現される。
しかし、現在のマルチスケジューラは、技術的な制限による顕著な品質劣化を示しており、その結果、ユーザエクスペリエンスが最適以下になる。
この課題に対処するため、THQA-MTを構築した。THQA-MTは、オンラインで収集された400個の実像を用いて、15の代表的なマルチ話者から5,492個のマルチ話者生成TH(MTH)からなる、最初の大規模マルチ話者生成ヒューマン品質評価データセットである。
主観的実験により、異なるマルチ話者の知覚的不一致を分析し、12種類の歪みを同定する。
さらに,新しいTH品質評価フレームワークであるEvalTalkerを紹介する。
このフレームワークは、Qwen-Syncを統合してマルチモーダル同期を知覚しながら、グローバルな品質、人間の特性、アイデンティティの整合性を知覚する能力を持っている。
実験結果から,EvalTalkerは主観的スコアとの相関性に優れており,高品質なマルチ話者生成と評価のための堅牢な基盤を提供する。
関連論文リスト
- AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement [30.435102560798455]
マルチストリーム処理アーキテクチャを特徴とするマルチパーソン生成フレームワークであるAnyTalkerを提案する。
本研究では,Diffusion Transformerのアテンションブロックを,IDとオーディオのペアを反復的に処理する新しいID対応アテンション機構で拡張する。
提案するトレーニングパイプラインは,複数対人会話パターンを学習し,実際の複数対人クリップでのみ対話性を洗練するために,単対人ビデオにのみ依存する。
論文 参考訳(メタデータ) (2025-11-28T18:59:01Z) - VOGUE: A Multimodal Dataset for Conversational Recommendation in Fashion [18.017186369021154]
VOGUEは、現実的なファッションショッピングシナリオにおける60人の人間対話の新たなデータセットである。
各対話は、共有されたビジュアルカタログ、アイテムメタデータ、ユーザーファッションプロファイルと履歴、およびSeekersとAssistantsの会話後の評価と組み合わせられる。
VOGUEの初期解析では,視覚的に接地された対話の特異なダイナミクスが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T04:45:29Z) - TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [74.31705485094096]
7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。
TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
論文 参考訳(メタデータ) (2025-08-19T08:31:15Z) - Who is a Better Talker: Subjective and Objective Quality Assessment for AI-Generated Talking Heads [53.012111671763776]
肖像画の音声駆動方式は、話し言葉の形や顔の動きを合成する能力から、比喩的に「Talkers」として知られている。
テキスト・トゥ・イメージ・モデル(T2I)の急速な発展に伴い、AI生成トーキングヘッド(AGTH)は徐々に新しいデジタルヒューマンメディアになりつつある。
本稿では,現在までに最大規模のAGTH品質評価データセットTHQA-10Kについて述べる。12のT2Iモデルと14の高度な話者を選択し,14のプロンプトでAGTHを生成する。
論文 参考訳(メタデータ) (2025-07-31T08:43:21Z) - Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation [34.15566431966277]
本稿では,マルチパーソン会話ビデオ生成という新しい課題を提案する。
マルチパーソン世代における課題に対処するための新しいフレームワークであるMultiTalkを導入する。
論文 参考訳(メタデータ) (2025-05-28T17:57:06Z) - OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions [62.19092662469285]
Online Multimodal Conversational Response Generation (OMCRG) は、オンラインの音声と非言語からのフィードバックを同時生成する新しいタスクである。
我々は,OmniResponseを提案する。OmniResponseはマルチモーダル大言語モデル(MLLM)であり,正確なマルチモーダルリスナー応答を自動回帰的に生成する。
ResponseNetは、696の詳細なダイアディックインタラクションのデータセットで、同期化された分割画面ビデオ、マルチチャンネルオーディオ、トランスクリプト、注釈付き顔行動が特徴です。
論文 参考訳(メタデータ) (2025-05-27T20:12:46Z) - Multimodal Conversation Structure Understanding [12.29827265137757]
大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2025-05-23T06:41:54Z) - X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すかどうかを調べる。
従来の設定では、各参加者は一度に1つのメッセージに制限される。
本稿では,textitburstダイアログパターンを用いて,元のテストを強化するtextbftextscX-Turingを提案する。
論文 参考訳(メタデータ) (2024-08-19T09:57:28Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。