論文の概要: BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation
- arxiv url: http://arxiv.org/abs/2505.06985v1
- Date: Sun, 11 May 2025 14:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.146941
- Title: BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation
- Title(参考訳): BridgeIV: テストタイムの自己回帰的アイデンティティ伝播によるカスタムイメージとビデオ生成のブリッジ
- Authors: Panwen Hu, Jiehui Huang, Qiang Sun, Xiaodan Liang,
- Abstract要約: テキスト・ツー・ビデオ(CT2V)生成のための自動回帰構造とテクスチャ・プロパゲーション・モジュール(STPM)を提案する。
STPMは、参照対象から重要な構造的およびテクスチャ的特徴を抽出し、それらを各ビデオフレームに自己回帰的に注入し、一貫性を高める。
また,テスト時間報酬最適化 (TTRO) 手法を導入し,細部まで詳細に解析する。
- 参考スコア(独自算出の注目度): 47.21414443162965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both zero-shot and tuning-based customized text-to-image (CT2I) generation have made significant progress for storytelling content creation. In contrast, research on customized text-to-video (CT2V) generation remains relatively limited. Existing zero-shot CT2V methods suffer from poor generalization, while another line of work directly combining tuning-based T2I models with temporal motion modules often leads to the loss of structural and texture information. To bridge this gap, we propose an autoregressive structure and texture propagation module (STPM), which extracts key structural and texture features from the reference subject and injects them autoregressively into each video frame to enhance consistency. Additionally, we introduce a test-time reward optimization (TTRO) method to further refine fine-grained details. Quantitative and qualitative experiments validate the effectiveness of STPM and TTRO, demonstrating improvements of 7.8 and 13.1 in CLIP-I and DINO consistency metrics over the baseline, respectively.
- Abstract(参考訳): ゼロショットとチューニングベースでカスタマイズされたテキスト・ツー・イメージ(CT2I)の生成は、ストーリーテリングコンテンツ作成において大きな進歩を遂げた。
対照的に、カスタマイズされたテキスト・ツー・ビデオ(CT2V)生成の研究は比較的限られている。
既存のゼロショットCT2V法は一般化に苦しむ一方、チューニングベースのT2Iモデルと時間運動モジュールを直接組み合わせた別の作業行は、しばしば構造やテクスチャ情報を失う。
このギャップを埋めるために、参照対象から重要な構造的・テクスチャ的特徴を抽出し、それらを各ビデオフレームに自己回帰的に注入して一貫性を高める自動回帰構造とテクスチャ伝搬モジュール(STPM)を提案する。
さらに,テスト時間報酬最適化 (TTRO) 手法を導入し,細かな詳細を改良する。
定量的および定性的な実験によりSTPMとTTROの有効性が検証され、ベースライン上でのCLIP-IとDINOの整合性測定において7.8と13.1の改善が示された。
関連論文リスト
- DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
DynamiCtrlはMM-DiTで異なるポーズ誘導構造を探索する新しいフレームワークである。
適応層正規化を利用してスパースポーズ特徴を符号化するPose-Adaptive Layer Norm (PadaLN)を提案する。
テキストを活用することで、生成したコンテンツのきめ細かい制御を可能にするだけでなく、初めて背景と動きの同時制御を実現する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [26.706957163997043]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。