論文の概要: LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
- arxiv url: http://arxiv.org/abs/2603.20192v1
- Date: Fri, 20 Mar 2026 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.288132
- Title: LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
- Title(参考訳): LumosX:パーソナライズされたビデオ生成の属性とあらゆるアイデンティティを関連付ける
- Authors: Jiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu,
- Abstract要約: データ設計とモデル設計の両方を進化させるフレームワークであるLumosXを提案する。
データ側では、カスタマイズされたパイプラインコレクションが、独立したビデオからキャプションと視覚的手がかりを編成する。
一方、マルチモーダルな大規模言語モデル(LMML)は、主観的な依存関係を推論し、割り当てる。
- 参考スコア(独自算出の注目度): 40.98620828711645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.
- Abstract(参考訳): 拡散モデルの最近の進歩は、テキスト・ビデオ生成を大幅に改善し、背景要素と背景要素の両方を細かく制御したパーソナライズされたコンテンツ作成を可能にした。
しかしながら、既存の手法ではグループ内の一貫性を確保するための明確なメカニズムが欠如しているため、被験者間の正確な顔属性アライメントは依然として困難である。
このギャップに対処するには、明示的なモデリング戦略と、フェースアトリビュート対応のデータリソースの両方が必要です。
そこで我々はデータ設計とモデル設計の両方を進化させるフレームワークであるLumosXを提案する。
データ側では、カスタマイズされたコレクションパイプラインが独立したビデオからのキャプションとビジュアルキューを編成し、マルチモーダルな大規模言語モデル(MLLM)が対象固有の依存関係を推論し割り当てる。
これらの抽出されたリレーショナル事前は、パーソナライズされたビデオ生成の表現的制御を増幅し、包括的なベンチマークの構築を可能にする、よりきめ細かい構造を課す。
モデリング面では,関係性自己意識と関係性相互意識的位置認識の埋め込みが注目度を向上し,明示的主観的属性依存性を記述し,群内凝集を強制し,異なる主観的クラスタ間の分離を増幅する。
本ベンチマークによる総合評価の結果,LumosXは細粒度,識別一貫性,セマンティックに整合したマルチオブジェクトビデオ生成において,最先端のパフォーマンスを実現することが示された。
コードとモデルはhttps://jiazheng-xing.github.io/lumosx-home/.comで公開されている。
関連論文リスト
- CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。
MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。
OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文 参考訳(メタデータ) (2025-10-01T02:41:11Z) - PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement [26.89021788485701]
PolyVividは、フレキシブルでアイデンティティ一貫性のある生成を可能にする、多目的ビデオカスタマイズフレームワークである。
実験では、PolyVividはアイデンティティの忠実さ、ビデオリアリズム、被写体アライメントにおいて優れたパフォーマンスを達成し、既存のオープンソースおよび商用ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-09T15:11:09Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。
提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。
これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文 参考訳(メタデータ) (2025-02-08T06:15:39Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。