論文の概要: PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
- arxiv url: http://arxiv.org/abs/2506.07848v1
- Date: Mon, 09 Jun 2025 15:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.015966
- Title: PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement
- Title(参考訳): PolyVivid: クロスモーダルインタラクションとエンハンスメントを備えたバイビッドなマルチオブジェクトビデオ生成
- Authors: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi,
- Abstract要約: PolyVividは、フレキシブルでアイデンティティ一貫性のある生成を可能にする、多目的ビデオカスタマイズフレームワークである。
実験では、PolyVividはアイデンティティの忠実さ、ビデオリアリズム、被写体アライメントにおいて優れたパフォーマンスを達成し、既存のオープンソースおよび商用ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 26.89021788485701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in video generation, existing models still lack fine-grained controllability, especially for multi-subject customization with consistent identity and interaction. In this paper, we propose PolyVivid, a multi-subject video customization framework that enables flexible and identity-consistent generation. To establish accurate correspondences between subject images and textual entities, we design a VLLM-based text-image fusion module that embeds visual identities into the textual space for precise grounding. To further enhance identity preservation and subject interaction, we propose a 3D-RoPE-based enhancement module that enables structured bidirectional fusion between text and image embeddings. Moreover, we develop an attention-inherited identity injection module to effectively inject fused identity features into the video generation process, mitigating identity drift. Finally, we construct an MLLM-based data pipeline that combines MLLM-based grounding, segmentation, and a clique-based subject consolidation strategy to produce high-quality multi-subject data, effectively enhancing subject distinction and reducing ambiguity in downstream video generation. Extensive experiments demonstrate that PolyVivid achieves superior performance in identity fidelity, video realism, and subject alignment, outperforming existing open-source and commercial baselines.
- Abstract(参考訳): 近年のビデオ生成の進歩にもかかわらず、既存のモデルは細かい制御性に欠けており、特に一貫したアイデンティティとインタラクションを備えたマルチオブジェクトのカスタマイズが可能である。
本稿では,多目的ビデオカスタマイズフレームワークであるPolyVividを提案する。
対象画像とテキストエンティティの正確な対応を確立するために,視覚的アイデンティティをテキスト空間に埋め込んだVLLMベースのテキストイメージ融合モジュールを設計する。
テキストと画像の埋め込みを双方向に構造化する3D-RoPEベースのエンハンスメントモジュールを提案する。
さらに、ビデオ生成プロセスに融合したアイデンティティ機能を効果的に注入し、アイデンティティドリフトを緩和するアテンション継承IDインジェクションモジュールを開発する。
最後に,MLLMをベースとしたグラウンド,セグメンテーション,および斜めをベースとしたオブジェクト統合戦略を組み合わせたMLLMベースのデータパイプラインを構築し,高品質なマルチオブジェクトデータを生成することにより,ダウンストリームビデオ生成における被写体区別を効果的に向上し,あいまいさを低減する。
大規模な実験により、PolyVividはアイデンティティの忠実さ、ビデオリアリズム、主観的アライメントにおいて優れたパフォーマンスを達成し、既存のオープンソースおよび商用ベースラインを上回っていることが示された。
関連論文リスト
- MAGREF: Masked Guidance for Any-Reference Video Generation [33.35245169242822]
MAGREFは、任意の参照ビデオ生成のための統一されたフレームワークである。
本研究では,一つのモデルで様々な対象推定を柔軟に処理できる領域認識型動的マスキング機構を提案する。
我々のモデルは、単目的訓練から複雑な多目的シナリオまで、最先端のビデオ生成品質を提供する。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation [10.037480577373161]
HunyuanCustomは、画像、オーディオ、ビデオ、テキストの状態をサポートしながら、主題の一貫性を強調する、カスタマイズされたビデオ生成フレームワークである。
本研究は,制御可能な映像生成におけるマルチモーダル・コンディショニングとアイデンティティ保存戦略の有効性を強調した。
論文 参考訳(メタデータ) (2025-05-07T15:33:18Z) - CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。
提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。
当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文 参考訳(メタデータ) (2025-03-13T14:07:58Z) - Phantom: Subject-consistent video generation via cross-modal alignment [16.777805813950486]
シングルオブジェクトとマルチオブジェクトの両方の参照に統一されたビデオ生成フレームワークを提案する。
提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。
論文 参考訳(メタデータ) (2025-02-16T11:02:50Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。