論文の概要: Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization
- arxiv url: http://arxiv.org/abs/2510.14255v1
- Date: Thu, 16 Oct 2025 03:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.697678
- Title: Identity-Preserving Image-to-Video Generation via Reward-Guided Optimization
- Title(参考訳): Reward-Guided Optimization を用いたアイデンティティ保存画像生成
- Authors: Liao Shen, Wentao Jiang, Yiran Zhu, Tiezheng Ge, Zhiguo Cao, Bo Zheng,
- Abstract要約: 画像間(I2V)生成のためのIPRO(Identity-Preserving Reward-guided Optimization)を提案する。
IPROは、アイデンティティ保護を強化するための強化学習に基づいている。
提案手法は,サンプリングチェーンの最後のステップを通じて報酬信号をバックプロパゲートし,よりリッチなフィードバックを可能にする。
- 参考スコア(独自算出の注目度): 39.46059491176915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in image-to-video (I2V) generation have achieved remarkable progress in synthesizing high-quality, temporally coherent videos from static images. Among all the applications of I2V, human-centric video generation includes a large portion. However, existing I2V models encounter difficulties in maintaining identity consistency between the input human image and the generated video, especially when the person in the video exhibits significant expression changes and movements. This issue becomes critical when the human face occupies merely a small fraction of the image. Since humans are highly sensitive to identity variations, this poses a critical yet under-explored challenge in I2V generation. In this paper, we propose Identity-Preserving Reward-guided Optimization (IPRO), a novel video diffusion framework based on reinforcement learning to enhance identity preservation. Instead of introducing auxiliary modules or altering model architectures, our approach introduces a direct and effective tuning algorithm that optimizes diffusion models using a face identity scorer. To improve performance and accelerate convergence, our method backpropagates the reward signal through the last steps of the sampling chain, enabling richer gradient feedback. We also propose a novel facial scoring mechanism that treats faces in ground-truth videos as facial feature pools, providing multi-angle facial information to enhance generalization. A KL-divergence regularization is further incorporated to stabilize training and prevent overfitting to the reward signal. Extensive experiments on Wan 2.2 I2V model and our in-house I2V model demonstrate the effectiveness of our method. Our project and code are available at \href{https://ipro-alimama.github.io/}{https://ipro-alimama.github.io/}.
- Abstract(参考訳): 近年,静止画像から高画質の時間的コヒーレントな映像を合成する手法として,画像合成(I2V)の進歩が目覚ましい進歩を遂げている。
I2Vのすべての応用の中で、人間中心のビデオ生成には大きな部分が含まれている。
しかし、既存のI2Vモデルは、入力された人間の画像と生成されたビデオとの間のアイデンティティの整合性を維持するのに困難に直面する。
この問題は、人間の顔が画像のごく一部を占める場合に重要になる。
人間はアイデンティティの変動に非常に敏感であるため、これはI2V生成において重要な課題である。
本稿では,強化学習に基づく新しい動画拡散フレームワークIPROを提案する。
補助モジュールを導入するか,モデルアーキテクチャを変更する代わりに,顔識別スコアラを用いて拡散モデルを最適化する直接的かつ効果的なチューニングアルゴリズムを導入する。
性能の向上と収束の促進を目的として,本手法はサンプリングチェーンの最後のステップを通じて報酬信号を逆伝搬し,よりリッチな勾配フィードバックを可能にする。
また,映像中の顔を顔の特徴プールとして扱う新しい顔スコアリング機構を提案し,一般化を促進するために多角顔情報を提供する。
さらにKL分割正規化が組み込まれ、トレーニングを安定させ、報酬信号への過度な適合を防止する。
Wan 2.2 I2Vモデルと社内I2Vモデルに対する大規模な実験により,本手法の有効性が示された。
私たちのプロジェクトとコードは、 \href{https://ipro-alimama.github.io/}{https://ipro-alimama.github.io/} で利用可能です。
関連論文リスト
- VividFace: High-Quality and Efficient One-Step Diffusion For Video Face Enhancement [51.83206132052461]
ビデオ顔強調(VFE)は、劣化したビデオシーケンスから高品質な顔領域を再構築することを目指している。
ビデオの超解像と生成フレームワークに依存する現在の手法は、3つの根本的な課題に直面している。
ビデオ・フェイス・エンハンスメントのための新規かつ効率的なワンステップ拡散フレームワークであるVividFaceを提案する。
論文 参考訳(メタデータ) (2025-09-28T02:39:48Z) - Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement [58.85593321752693]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
本稿では,映像記述と参照画像のセマンティックギャップを橋渡しする,トレーニングフリープロンプト,イメージ,ガイダンス拡張フレームワークを提案する。
ACM Multimedia 2025 Identity-Preserving Video Generation Challengeで優勝した。
論文 参考訳(メタデータ) (2025-09-01T11:03:13Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion [3.592206475366951]
既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦しむ。
テキストから高レベルなセマンティック機能を統合して、クリーンな顔認証表現をキャプチャするEchoVideoを提案する。
高品質で制御性があり、忠実なビデオを生成するのに優れた結果をもたらす。
論文 参考訳(メタデータ) (2025-01-23T08:06:11Z) - VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。