論文の概要: ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation
- arxiv url: http://arxiv.org/abs/2511.00511v2
- Date: Tue, 04 Nov 2025 03:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.816619
- Title: ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation
- Title(参考訳): ID-Composer:階層的アイデンティティ保存による多目的ビデオ合成
- Authors: Panwang Pan, Jingjing Zhao, Yuchen Lin, Chenguo Lin, Chenxin Li, Haopeng Li, Honglei Yan, Tingting Shen, Yadong Mu,
- Abstract要約: 大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
- 参考スコア(独自算出の注目度): 48.59900036213667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generative models pretrained on large-scale datasets can produce high-quality videos, but are often conditioned on text or a single image, limiting controllability and applicability. We introduce ID-Composer, a novel framework that addresses this gap by tackling multi-subject video generation from a text prompt and reference images. This task is challenging as it requires preserving subject identities, integrating semantics across subjects and modalities, and maintaining temporal consistency. To faithfully preserve the subject consistency and textual information in synthesized videos, ID-Composer designs a hierarchical identity-preserving attention mechanism, which effectively aggregates features within and across subjects and modalities. To effectively allow for the semantic following of user intention, we introduce semantic understanding via pretrained vision-language model (VLM), leveraging VLM's superior semantic understanding to provide fine-grained guidance and capture complex interactions between multiple subjects. Considering that standard diffusion loss often fails in aligning the critical concepts like subject ID, we employ an online reinforcement learning phase to drive the overall training objective of ID-Composer into RLVR. Extensive experiments demonstrate that our model surpasses existing methods in identity preservation, temporal consistency, and video quality.
- Abstract(参考訳): 大規模なデータセットで事前訓練されたビデオ生成モデルは、高品質なビデオを生成することができるが、テキストや単一のイメージに条件付けされることがしばしばあり、制御性と適用性を制限する。
我々は,テキストプロンプトと参照画像から多目的映像を生成することで,このギャップに対処する新しいフレームワークであるID-Composerを紹介する。
このタスクは、主題のアイデンティティの保存、主題とモダリティのセマンティクスの統合、時間的一貫性の維持を必要とするため、難しい。
合成ビデオにおける主題の一貫性とテキスト情報を忠実に保存するために、ID-Composerは階層的アイデンティティ保存注意機構を設計し、被写体内および被写体間の特徴を効果的に集約する。
ユーザ意図のセマンティックな理解を効果的に行うために,VLMの優れたセマンティックな理解を活用し,複数の被験者間の複雑な相互作用を捉えることを目的とした,事前学習型視覚言語モデル(VLM)によるセマンティック理解を導入する。
標準拡散損失は、主観的IDのような重要な概念の整合に失敗することが多いので、オンライン強化学習フェーズを用いて、ID-Composerの総合的な学習目標をRLVRに推し進める。
大規模な実験により、我々のモデルは、アイデンティティ保存、時間的一貫性、ビデオ品質といった既存の手法を超越していることが示された。
関連論文リスト
- BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - Compositional Video Synthesis by Temporal Object-Centric Learning [3.2228025627337864]
本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。
提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。
この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
論文 参考訳(メタデータ) (2025-07-28T14:11:04Z) - SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement [26.89021788485701]
PolyVividは、フレキシブルでアイデンティティ一貫性のある生成を可能にする、多目的ビデオカスタマイズフレームワークである。
実験では、PolyVividはアイデンティティの忠実さ、ビデオリアリズム、被写体アライメントにおいて優れたパフォーマンスを達成し、既存のオープンソースおよび商用ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-09T15:11:09Z) - CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。
提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。
当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文 参考訳(メタデータ) (2025-03-13T14:07:58Z) - Hierarchical Banzhaf Interaction for General Video-Language Representation Learning [60.44337740854767]
マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
論文 参考訳(メタデータ) (2024-12-30T14:09:15Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。