論文の概要: ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2512.07328v1
- Date: Mon, 08 Dec 2025 09:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.803188
- Title: ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation
- Title(参考訳): ContextAnyone: 文字一貫性のあるテキスト・ビデオ生成のためのコンテキスト認識拡散
- Authors: Ziyang Mai, Yu-Wing Tai,
- Abstract要約: テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。
テキストと単一の参照画像から文字一貫性のある映像を生成するコンテキスト対応拡散フレームワークである textbfContextAnyone を提案する。
提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
- 参考スコア(独自算出の注目度): 36.29956463871403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video (T2V) generation has advanced rapidly, yet maintaining consistent character identities across scenes remains a major challenge. Existing personalization methods often focus on facial identity but fail to preserve broader contextual cues such as hairstyle, outfit, and body shape, which are critical for visual coherence. We propose \textbf{ContextAnyone}, a context-aware diffusion framework that achieves character-consistent video generation from text and a single reference image. Our method jointly reconstructs the reference image and generates new video frames, enabling the model to fully perceive and utilize reference information. Reference information is effectively integrated into a DiT-based diffusion backbone through a novel Emphasize-Attention module that selectively reinforces reference-aware features and prevents identity drift across frames. A dual-guidance loss combines diffusion and reference reconstruction objectives to enhance appearance fidelity, while the proposed Gap-RoPE positional embedding separates reference and video tokens to stabilize temporal modeling. Experiments demonstrate that ContextAnyone outperforms existing reference-to-video methods in identity consistency and visual quality, generating coherent and context-preserving character videos across diverse motions and scenes. Project page: \href{https://github.com/ziyang1106/ContextAnyone}{https://github.com/ziyang1106/ContextAnyone}.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。
既存のパーソナライズ手法は、しばしば顔のアイデンティティに焦点を当てるが、視覚的コヒーレンスにとって重要な髪型、服装、体型といったより広い文脈の手がかりを保存できない。
本稿では,テキストと単一の参照画像からキャラクタ一貫性のある映像を生成するコンテキスト対応拡散フレームワークであるtextbf{ContextAnyone}を提案する。
提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
参照情報は、参照認識機能を選択的に強化し、フレーム間のアイデンティティドリフトを防止する新しいEmphasize-Attentionモジュールを通じて、DiTベースの拡散バックボーンに効果的に統合される。
二重誘導損失は拡散と参照再構成の目的を組み合わせて外観の忠実度を高める一方、提案したGap-RoPE位置埋め込みは参照トークンとビデオトークンを分離し、時間的モデリングを安定化させる。
ContextAnyoneは、アイデンティティの一貫性と視覚的品質において、既存の参照とビデオの手法よりも優れており、多様な動きやシーンにまたがるコヒーレントでコンテキストを保存するキャラクタビデオを生成する。
プロジェクトページ: \href{https://github.com/ziyang1106/ContextAnyone}{https://github.com/ziyang1106/ContextAnyone}
関連論文リスト
- MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - Phantom: Subject-consistent video generation via cross-modal alignment [16.777805813950486]
シングルオブジェクトとマルチオブジェクトの両方の参照に統一されたビデオ生成フレームワークを提案する。
提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。
論文 参考訳(メタデータ) (2025-02-16T11:02:50Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [74.61964363605632]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。