論文の概要: Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.14256v1
- Date: Thu, 16 Oct 2025 03:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.698888
- Title: Identity-GRPO: Optimizing Multi-Human Identity-preserving Video Generation via Reinforcement Learning
- Title(参考訳): アイデンティティ-GRPO:強化学習によるマルチヒューマンID保存ビデオ生成の最適化
- Authors: Xiangyu Meng, Zixian Zhang, Zhenghao Zhang, Junchao Liao, Long Qin, Weizhi Wang,
- Abstract要約: Identity-GRPOは、マルチヒューマンアイデンティティ保存ビデオ生成のための人間のフィードバック駆動最適化パイプラインである。
VACE と Phantom を大幅に向上させるマルチヒューマン一貫性のためのGRPO バリアントを採用している。
実験の結果、Identity-GRPOはベースラインメソッドよりも最大で18.9%向上していることがわかった。
- 参考スコア(独自算出の注目度): 13.0209477024596
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While advanced methods like VACE and Phantom have advanced video generation for specific subjects in diverse scenarios, they struggle with multi-human identity preservation in dynamic interactions, where consistent identities across multiple characters are critical. To address this, we propose Identity-GRPO, a human feedback-driven optimization pipeline for refining multi-human identity-preserving video generation. First, we construct a video reward model trained on a large-scale preference dataset containing human-annotated and synthetic distortion data, with pairwise annotations focused on maintaining human consistency throughout the video. We then employ a GRPO variant tailored for multi-human consistency, which greatly enhances both VACE and Phantom. Through extensive ablation studies, we evaluate the impact of annotation quality and design choices on policy optimization. Experiments show that Identity-GRPO achieves up to 18.9% improvement in human consistency metrics over baseline methods, offering actionable insights for aligning reinforcement learning with personalized video generation.
- Abstract(参考訳): VACEやPhantomのような先進的な手法は、様々なシナリオにおいて特定の対象に対して高度なビデオ生成を行うが、複数の文字をまたいだ一貫したアイデンティティが不可欠である動的相互作用において、複数の人間のアイデンティティ保存に苦労する。
そこで本研究では,マルチヒューマン・アイデンティティ保存ビデオ生成のための,フィードバック駆動型最適化パイプラインであるIdentity-GRPOを提案する。
まず、人間のアノテーションと合成歪みデータを含む大規模な嗜好データセットに基づいてトレーニングされたビデオ報酬モデルを構築し、ビデオ全体を通して人間の一貫性を維持することに焦点を当てたペアワイズアノテーションを構築した。
次に、マルチヒューマン一貫性のためのGRPOの派生版を使用し、VACEとPhantomの両方を大幅に強化する。
大規模なアブレーション研究を通じて,アノテーションの品質と設計選択が政策最適化に与える影響を評価する。
実験により、Identity-GRPOは、ベースラインメソッドよりも最大で18.9%の改善を実現し、強化学習とパーソナライズされたビデオ生成を協調するための実用的な洞察を提供する。
関連論文リスト
- Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization [39.46059491176915]
画像間(I2V)生成のためのIPRO(Identity-Preserving Reward-guided Optimization)を提案する。
IPROは、アイデンティティ保護を強化するための強化学習に基づいている。
提案手法は,サンプリングチェーンの最後のステップを通じて報酬信号をバックプロパゲートし,よりリッチなフィードバックを可能にする。
論文 参考訳(メタデータ) (2025-10-16T03:13:47Z) - Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement [58.85593321752693]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
本稿では,映像記述と参照画像のセマンティックギャップを橋渡しする,トレーニングフリープロンプト,イメージ,ガイダンス拡張フレームワークを提案する。
ACM Multimedia 2025 Identity-Preserving Video Generation Challengeで優勝した。
論文 参考訳(メタデータ) (2025-09-01T11:03:13Z) - From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization [24.398759596367103]
ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。
MagicIDは、ユーザの好みに合わせて、アイデンティティに一貫性があり、動的にリッチなビデオの生成を促進するために設計された新しいフレームワークである。
実験の結果、MagicIDは一貫性のあるアイデンティティと自然なダイナミクスを実現し、さまざまなメトリクスで既存のメソッドを超越していることがわかった。
論文 参考訳(メタデータ) (2025-03-16T23:15:09Z) - VisionReward: Fine-Grained Multi-Dimensional Human Preference Learning for Image and Video Generation [70.68566282567207]
画像生成と映像生成の両方において人間の視覚的嗜好を学習するためのフレームワークであるVisionRewardを紹介する。
VisionRewardは、マシンメトリクスと人的評価の両方において、既存の画像およびビデオ報酬モデルを大幅に上回ることができる。
論文 参考訳(メタデータ) (2024-12-30T16:24:09Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。