論文の概要: JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1
- arxiv url: http://arxiv.org/abs/2507.20987v2
- Date: Tue, 29 Jul 2025 04:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.859581
- Title: JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1
- Title(参考訳): JWB-DH-V1:Avatarと音声生成バージョン1を併用した全音節音声のベンチマーク
- Authors: Xinhan Di, Kristin Qi, Pengqian Yu,
- Abstract要約: 本稿では, 音声合成バージョンI(JWB-DH-V1)について紹介する。
200万のビデオサンプルに1万のユニークなアイデンティティを持つ大規模なマルチモーダルデータセットと、全身のアニマタブルアバターのジョイントオーディオビデオ生成を評価するための評価プロトコルを備える。
我々のSOTAモデルの評価では、顔/手中心と全身のパフォーマンスの相違が一貫した。
- 参考スコア(独自算出の注目度): 6.4645943969421875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion-based video generation have enabled photo-realistic short clips, but current methods still struggle to achieve multi-modal consistency when jointly generating whole-body motion and natural speech. Current approaches lack comprehensive evaluation frameworks that assess both visual and audio quality, and there are insufficient benchmarks for region-specific performance analysis. To address these gaps, we introduce the Joint Whole-Body Talking Avatar and Speech Generation Version I(JWB-DH-V1), comprising a large-scale multi-modal dataset with 10,000 unique identities across 2 million video samples, and an evaluation protocol for assessing joint audio-video generation of whole-body animatable avatars. Our evaluation of SOTA models reveals consistent performance disparities between face/hand-centric and whole-body performance, which incidates essential areas for future research. The dataset and evaluation tools are publicly available at https://github.com/deepreasonings/WholeBodyBenchmark.
- Abstract(参考訳): 拡散型ビデオ生成の最近の進歩により、フォトリアリスティックなショートクリップが可能になったが、現在の方法では、全身の動きと自然な音声を共同で生成する際に、多モーダルな一貫性を達成するのに苦慮している。
現在のアプローチでは、ビジュアル品質とオーディオ品質の両方を評価する包括的な評価フレームワークが欠如しており、リージョン固有のパフォーマンス分析のためのベンチマークが不十分である。
これらのギャップに対処するために,200万本のビデオサンプルに1万のユニークなアイデンティティを持つ大規模マルチモーダルデータセットと,全身のアニマタブルなアバターの音声・ビデオ生成を評価するための評価プロトコルを含む,JWB-DH-V1とJWB-DH-V1のジョイント・オール・ボディー・トーキング・アバターについて紹介する。
我々のSOTAモデルによる評価では,顔/手中心と全身のパフォーマンスの相違が指摘され,今後の研究に欠かせない領域が示唆される。
データセットと評価ツールはhttps://github.com/deepreasonings/WholeBodyBenchmarkで公開されている。
関連論文リスト
- HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation [20.009670139005085]
既存の超音波セグメンテーション法は、しばしば新しいタスクへの適応性に苦しむ。
視覚基盤モデルHieraを応用した適応型フレームワークを導入し,マルチスケールな特徴を抽出する。
これらのリッチな機能は、精密で堅牢なセグメンテーションを生成するためにデコードされる。
論文 参考訳(メタデータ) (2025-03-31T17:47:42Z) - MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX [15.038202110401336]
MAVERIX (Multimodal Audio-Visual Evaluation Reasoning IndeX) は700の動画と2,556の質問を含む新しいベンチマークである。
映像と音声の密接な統合を必要とするタスクを通じて、マルチモーダルモデルを評価するように設計されている。
Gemini 1.5 Proやo1といった最先端モデルによる実験は、人間のレベルに近づくパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-27T17:04:33Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores [18.26082503192707]
PEAVS(Perceptual Evaluation of Audio-Visual Synchrony)スコアは,音声-視覚同期の質を評価する5点尺度を備えた新しい自動測定値である。
実験では、Fr'eche'tをベースとしたオーディオ・ビジュアル同期の自然な拡張に対して、相対的な50%のゲインを観測した。
論文 参考訳(メタデータ) (2024-04-10T20:32:24Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文 参考訳(メタデータ) (2022-01-17T07:57:24Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。