論文の概要: Preview WB-DH: Towards Whole Body Digital Human Bench for the Generation of Whole-body Talking Avatar Videos
- arxiv url: http://arxiv.org/abs/2508.08891v1
- Date: Tue, 12 Aug 2025 12:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.421023
- Title: Preview WB-DH: Towards Whole Body Digital Human Bench for the Generation of Whole-body Talking Avatar Videos
- Title(参考訳): WB-DH:全体デジタルベンチに向けた全体トーキングアバタービデオのプレビュー
- Authors: Chaoyi Wang, Yifan Yang, Jun Pei, Lijie Xia, Jianpo Liu, Xiaobing Yuan, Xinhan Di,
- Abstract要約: Whole-Body Benchmark dataset (WB-DH)は、全体アニマタブルアバター生成を評価するためのオープンソースのマルチモーダルベンチマークである。
WB-DHには詳細なマルチモーダルアノテーション、詳細なガイダンス、多目的評価フレームワーク、データセットとツールへのパブリックアクセスが含まれている。
- 参考スコア(独自算出の注目度): 9.282846308876623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating realistic, fully animatable whole-body avatars from a single portrait is challenging due to limitations in capturing subtle expressions, body movements, and dynamic backgrounds. Current evaluation datasets and metrics fall short in addressing these complexities. To bridge this gap, we introduce the Whole-Body Benchmark Dataset (WB-DH), an open-source, multi-modal benchmark designed for evaluating whole-body animatable avatar generation. Key features include: (1) detailed multi-modal annotations for fine-grained guidance, (2) a versatile evaluation framework, and (3) public access to the dataset and tools at https://github.com/deepreasonings/WholeBodyBenchmark.
- Abstract(参考訳): 1つのポートレートから現実的で、完全にアニメーション可能な全身アバターを作ることは、微妙な表情、身体の動き、ダイナミックな背景を捉えるのに制限があるため、難しい。
現在の評価データセットとメトリクスは、これらの複雑さに対処するのに不足しています。
このギャップを埋めるために、全体アニマタブルアバター生成を評価するために設計されたオープンソースのマルチモーダルベンチマークであるWhole-Body Benchmark Dataset (WB-DH)を導入する。
1)詳細なガイダンスのための詳細なマルチモーダルアノテーション、(2)汎用的な評価フレームワーク、(3)https://github.com/deepreasonings/WholeBodyBenchmarkにあるデータセットとツールへのパブリックアクセス。
関連論文リスト
- JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1 [6.4645943969421875]
本稿では, 音声合成バージョンI(JWB-DH-V1)について紹介する。
200万のビデオサンプルに1万のユニークなアイデンティティを持つ大規模なマルチモーダルデータセットと、全身のアニマタブルアバターのジョイントオーディオビデオ生成を評価するための評価プロトコルを備える。
我々のSOTAモデルの評価では、顔/手中心と全身のパフォーマンスの相違が一貫した。
論文 参考訳(メタデータ) (2025-07-28T16:47:44Z) - Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models [1.9890559505377343]
現在の視覚言語マルチモーダルモデルは、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - VBench: Comprehensive Benchmark Suite for Video Generative Models [100.43756570261384]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBenchは、すべてのプロンプト、評価方法、生成されたビデオ、人間の好みのアノテーションを含むオープンソースとして公開します。
論文 参考訳(メタデータ) (2023-11-29T18:39:01Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Whole-Body Human Pose Estimation in the Wild [88.09875133989155]
COCO-WholeBodyは、全体アノテーションでCOCOデータセットを拡張する。
これは人体全体に手動のアノテーションがある最初のベンチマークである。
ZoomNetという名前のシングルネットワークモデルは、完全な人体の階層構造を考慮するために考案された。
論文 参考訳(メタデータ) (2020-07-23T08:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。