論文の概要: Human detectors are surprisingly powerful reward models
- arxiv url: http://arxiv.org/abs/2601.14037v2
- Date: Wed, 21 Jan 2026 07:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.269279
- Title: Human detectors are surprisingly powerful reward models
- Title(参考訳): 人間の検出器は驚くほど強力な報酬モデル
- Authors: Kumar Ashutosh, XuDong Wang, Xi Yin, Kristen Grauman, Adam Polyak, Ishan Misra, Rohit Girdhar,
- Abstract要約: 本稿では,生成ビデオにおける人間の動きの定量化と改善を目的とした,極めて単純な報酬モデルHuDAを提案する。
HuDAは、外観品質に対する人間の検出信頼度と、時間的プロンプトアライメントスコアを統合して、モーションリアリズムをキャプチャする。
この単純な報奨関数は、追加のトレーニングを伴わずに市販のモデルを活用でき、手動の注釈付きデータで微調整された特殊モデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 76.08162317933552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation models have recently achieved impressive visual fidelity and temporal coherence. Yet, they continue to struggle with complex, non-rigid motions, especially when synthesizing humans performing dynamic actions such as sports, dance, etc. Generated videos often exhibit missing or extra limbs, distorted poses, or physically implausible actions. In this work, we propose a remarkably simple reward model, HuDA, to quantify and improve the human motion in generated videos. HuDA integrates human detection confidence for appearance quality, and a temporal prompt alignment score to capture motion realism. We show this simple reward function that leverages off-the-shelf models without any additional training, outperforms specialized models finetuned with manually annotated data. Using HuDA for Group Reward Policy Optimization (GRPO) post-training of video models, we significantly enhance video generation, especially when generating complex human motions, outperforming state-of-the-art models like Wan 2.1, with win-rate of 73%. Finally, we demonstrate that HuDA improves generation quality beyond just humans, for instance, significantly improving generation of animal videos and human-object interactions.
- Abstract(参考訳): ビデオ生成モデルは、最近、印象的な視覚的忠実度と時間的コヒーレンスを達成した。
しかし、特にスポーツやダンスなどのダイナミックなアクションを行う人間を合成する際には、複雑な非剛体的な動きに苦しむ。
生成されたビデオは、しばしば欠落した手足や余分なポーズ、歪んだポーズ、または身体的に不可解な行動を示す。
本研究では,生成ビデオにおける人間の動きの定量化と改善を目的とした,極めて単純な報酬モデルHuDAを提案する。
HuDAは、外観品質に対する人間の検出信頼度と、時間的プロンプトアライメントスコアを統合して、モーションリアリズムをキャプチャする。
この単純な報奨関数は、追加のトレーニングを伴わずに市販のモデルを活用でき、手動の注釈付きデータで微調整された特殊モデルより優れていることを示す。
We use HuDA for Group Reward Policy Optimization (GRPO) post-training of video models, we significantly enhance video generation, especially when complex human motions, out of the-of-the-art model as Wan 2.1, with win-rate 73%。
最後に、HuDAは、例えば動物ビデオの生成と人間とオブジェクトの相互作用を大幅に改善するなど、人間以外の世代品質を改善することを実証する。
関連論文リスト
- From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。
この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか?
この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。
我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文 参考訳(メタデータ) (2025-12-04T18:56:03Z) - MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling [107.8379802891245]
本稿では,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAは、ほとんどの評価指標で既存のアプローチを大幅に上回っている。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
論文 参考訳(メタデータ) (2025-08-24T15:20:24Z) - HyperMotion: DiT-Based Pose-Guided Human Image Animation of Complex Motions [12.46263584777151]
我々はtextbfOpen-HyperMotionX データセットと textbfHyperMotionX Bench を導入する。
また、簡易だが強力なDiTベースのビデオ生成ベースラインを提案し、空間的低周波化 RoPE を設計する。
本手法は,高ダイナミックな人間の動作シーケンスにおける構造安定性と外観の整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-29T01:30:46Z) - Llama Learns to Direct: DirectorLLM for Human-Centric Video Generation [54.561971554162376]
ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
論文 参考訳(メタデータ) (2024-12-19T03:10:26Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。