Fugu-MT 論文翻訳(概要): HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

論文の概要: HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation

arxiv url: http://arxiv.org/abs/2604.25361v1
Date: Tue, 28 Apr 2026 08:27:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.772882
Title: HuM-Eval: A Coarse-to-Fine Framework for Human-Centric Video Evaluation
Title（参考訳）: HuM-Eval:人間中心のビデオ評価のための粗大なフレームワーク
Authors: Bingzi Zhang, Kaisi Guan, Ruihua Song,
Abstract要約: 本稿では,人間中心評価フレームワークHuM-Evalを提案する。 HuM-Evalは58.2%の平均的な人間相関を達成し、最先端のベースラインを上回っている。
参考スコア（独自算出の注目度）: 15.568587059061025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generation models have developed rapidly in recent years, where generating natural human motion plays a pivotal role. However, accurately evaluating the quality of generated human motion video remains a significant challenge. Existing evaluation metrics primarily focus on global scene statistics, often overlooking fine-grained human details and consequently failing to align with human subjective preference. To bridge this gap, we propose HuM-Eval, a novel human-centric evaluation framework that adopts a coarse-to-fine strategy. Specifically, our framework first utilizes a Vision Language Model to perform a coarse assessment of global video quality. It then proceeds to a fine-grained analysis, using 2D pose to verify anatomical correctness and 3D human motion to evaluate motion stability. Extensive experiments demonstrate that HuM-Eval achieves an average human correlation of 58.2%, outperforming state-of-the-art baselines. Furthermore, we introduce HuM-Bench, a comprehensive benchmark comprising 1,000 diverse prompts, and conduct a detailed evaluation of existing text-to-video models, paving the way for next-generation human motion generation.
Abstract（参考訳）: 近年、ビデオ生成モデルは急速に発展し、人間の自然な動きを生み出すことが重要な役割を担っている。しかしながら、生成した人間のモーションビデオの品質を正確に評価することは重要な課題である。既存の評価指標は主にグローバルなシーン統計に焦点を当てており、しばしば細かな人間の詳細を見落とし、結果として人間の主観的嗜好と一致しない。このギャップを埋めるために、我々は粗大な戦略を採用する人間中心評価フレームワークであるHum-Evalを提案する。具体的には、まずビジョン言語モデルを用いて、グローバルな映像品質の粗い評価を行う。 2Dのポーズを使って解剖学的正確さと3Dの人間の動きを検証し、動きの安定性を評価する。 HuM-Evalは58.2%の平均的な人間相関を達成し、最先端のベースラインを上回っている。さらに、1,000の多様なプロンプトからなる総合ベンチマークであるHum-Benchを導入し、既存のテキスト・ビデオモデルの詳細な評価を行い、次世代のヒューマン・モーション・ジェネレーションへの道を開いた。

関連論文リスト

HumanScore: Benchmarking Human Motions in Generated Videos [16.29197573772623]
AI生成ビデオにおける人間の動きの質を評価するためのフレームワークであるHumanScoreを提案する。 HumanScoreは、6つの解釈可能なメトリクスを定義している。解析の結果,知覚の可塑性と運動の生体力学的忠実度との間には一貫したギャップが認められた。
論文参考訳（メタデータ） (2026-04-22T03:51:19Z)
Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots [54.54929302887405]
15のアクションカテゴリにまたがる1000のモーションシーケンスからなるHuman-Humanoid Motionデータセットを提案する。すべてのモーションシーケンスは、視覚的外観の影響を排除するためにSMPL-X表現に変換される。収集したデータから、ヒューマノイドの動きが人間の動きと顕著なずれを示すことが明らかとなった。
論文参考訳（メタデータ） (2026-03-06T11:40:56Z)
Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos [4.872114804382539]
実世界の人間の行動の学習された潜在空間から導かれる新しい評価基準を導入する。本手法は、外見に依存しない人間の骨格幾何学的特徴と外見に基づく特徴を融合させることにより、実世界の動きのニュアンス、制約、時間的滑らかさをまず捉える。生成した映像から,この学習された実世界の行動分布との距離を計測することにより,その行動の質を定量化する。
論文参考訳（メタデータ） (2025-12-01T15:36:33Z)
Gesture Generation (Still) Needs Improved Human Evaluation Practices: Insights from a Community-Driven State-of-the-Art Benchmark [55.41250396114216]
音声認識による3Dジェスチャー生成における人的評価の実践について検討する。本稿では,広範に使用されているBEAT2モーションキャプチャーデータセットの詳細な評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-11-03T05:17:28Z)
HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
High Quality Human Image Animation using Regional Supervision and Motion Blur Condition [97.97432499053966]
我々は、顔と手の忠実度を高めるために、詳細な地域に対する地域監督を活用している。第二に、動作のぼかしを明示的にモデル化し、外観の質をさらに向上させる。第3に,高精細な人体アニメーションのための新しいトレーニング戦略を探求し,全体の忠実度を向上する。
論文参考訳（メタデータ） (2024-09-29T06:46:31Z)
Aligning Human Motion Generation with Human Perceptions [51.831338643012444]
本研究では,大規模人間の知覚評価データセットであるMotionPerceptと,人間の動作批判モデルであるMotionCriticを導入することにより,ギャップを埋めるデータ駆動型アプローチを提案する。我々の批評家モデルは、運動品質を評価するためのより正確な指標を提供しており、容易に運動生成パイプラインに統合することができる。
論文参考訳（メタデータ） (2024-07-02T14:01:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。