論文の概要: Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement
- arxiv url: http://arxiv.org/abs/2509.01362v1
- Date: Mon, 01 Sep 2025 11:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.654992
- Title: Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement
- Title(参考訳): 訓練不要プロンプト, 画像, ガイダンスによるアイデンティティ保存型テキスト・ビデオ生成
- Authors: Jiayi Gao, Changcheng Hua, Qingchao Chen, Yuxin Peng, Yang Liu,
- Abstract要約: アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
本稿では,映像記述と参照画像のセマンティックギャップを橋渡しする,トレーニングフリープロンプト,イメージ,ガイダンス拡張フレームワークを提案する。
ACM Multimedia 2025 Identity-Preserving Video Generation Challengeで優勝した。
- 参考スコア(独自算出の注目度): 58.85593321752693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identity-preserving text-to-video (IPT2V) generation creates videos faithful to both a reference subject image and a text prompt. While fine-tuning large pretrained video diffusion models on ID-matched data achieves state-of-the-art results on IPT2V, data scarcity and high tuning costs hinder broader improvement. We thus introduce a Training-Free Prompt, Image, and Guidance Enhancement (TPIGE) framework that bridges the semantic gap between the video description and the reference image and design sampling guidance that enhances identity preservation and video quality, achieving performance gains at minimal cost.Specifically, we first propose Face Aware Prompt Enhancement, using GPT-4o to enhance the text prompt with facial details derived from the reference image. We then propose Prompt Aware Reference Image Enhancement, leveraging an identity-preserving image generator to refine the reference image, rectifying conflicts with the text prompt. The above mutual refinement significantly improves input quality before video generation. Finally, we propose ID-Aware Spatiotemporal Guidance Enhancement, utilizing unified gradients to optimize identity preservation and video quality jointly during generation.Our method outperforms prior work and is validated by automatic and human evaluations on a 1000 video test set, winning first place in the ACM Multimedia 2025 Identity-Preserving Video Generation Challenge, demonstrating state-of-the-art performance and strong generality. The code is available at https://github.com/Andyplus1/IPT2V.git.
- Abstract(参考訳): アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
IPT2Vでは,IDマッチングデータによる事前トレーニング済みの大規模なビデオ拡散モデルが最先端の成果をもたらす一方で,データ不足や高チューニングコストが大幅な改善を妨げている。
そこで我々は,映像記述と参照画像のセマンティックなギャップを埋めるTPIGEフレームワークを導入し,画像の保存と画質の向上を図り,パフォーマンスの向上を最小限のコストで達成する。
次に,Pmpt Aware Reference Image Enhancementを提案し,テキストプロンプトとの矛盾を解消し,参照画像を洗練するためのID保存イメージジェネレータを活用する。
上記の相互改善により、ビデオ生成前の入力品質が大幅に向上する。
最後に,ID-Aware Spatiotemporal Guidance Enhancement(ID-Aware Spatiotemporal Guidance)を提案する。この手法は,生成時のアイデンティティ保存と映像品質を協調的に最適化するための統一的な勾配を利用して,先行作業より優れており,ACMマルチメディア2025Identity-Preserving Video Generation Challengeで優勝した1000のビデオテストセット上で,自動的および人為的評価によって検証されている。
コードはhttps://github.com/Andyplus1/IPT2V.gitで公開されている。
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [37.05422543076405]
Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。
既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。
本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:08:18Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。