論文の概要: Gloria: Consistent Character Video Generation via Content Anchors
- arxiv url: http://arxiv.org/abs/2603.29931v1
- Date: Tue, 31 Mar 2026 16:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.836029
- Title: Gloria: Consistent Character Video Generation via Content Anchors
- Title(参考訳): Gloria: Consistent Character Video Generation via Content Anchors
- Authors: Yuhang Yang, Fan Zhang, Huaijin Pi, Shuai Guo, Guowei Xu, Wei Zhai, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 本稿では,アンカーフレームのコンパクトな集合を通して,文字の視覚特性を表現することを提案する。
この設計は、一貫性のための安定した参照を提供するが、参照ベースのビデオ生成はコピーパッティングとマルチ参照競合の課題に直面している。
実験により,提案手法は10分を超える高品質なキャラクタビデオを生成し,既存の手法を超越して,ビュー間の表現的アイデンティティと外観整合性を実現する。
- 参考スコア(独自算出の注目度): 63.7455328319917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital characters are central to modern media, yet generating character videos with long-duration, consistent multi-view appearance and expressive identity remains challenging. Existing approaches either provide insufficient context to preserve identity or leverage non-character-centric information as the memory, leading to suboptimal consistency. Recognizing that character video generation inherently resembles an outside-looking-in scenario. In this work, we propose representing the character visual attributes through a compact set of anchor frames. This design provides stable references for consistency, while reference-based video generation inherently faces challenges of copy-pasting and multi-reference conflicts. To address these, we introduce two mechanisms: Superset Content Anchoring, providing intra- and extra-training clip cues to prevent duplication, and RoPE as Weak Condition, encoding positional offsets to distinguish multiple anchors. Furthermore, we construct a scalable pipeline to extract these anchors from massive videos. Experiments show our method generates high-quality character videos exceeding 10 minutes, and achieves expressive identity and appearance consistency across views, surpassing existing methods.
- Abstract(参考訳): デジタルキャラクタは現代メディアの中心であるが、長期化、一貫したマルチビューの外観、表現力のあるアイデンティティを持つキャラクタビデオを生成することは依然として困難である。
既存のアプローチは、アイデンティティを保持するのに不十分なコンテキストを提供するか、メモリとして非文字中心の情報を活用するかのいずれかで、最適以下の一貫性をもたらす。
キャラクタビデオの生成を認識することは、本質的に外見的なシナリオに似ている。
本研究では,アンカーフレームのコンパクトな集合を通して,文字の視覚特性を表現することを提案する。
この設計は、一貫性のための安定した参照を提供するが、参照ベースのビデオ生成は本質的にコピーパッティングとマルチ参照競合の課題に直面している。
そこで本研究では,重複防止のためにトレーニング中のクリップキューを提供するSuperset Content Anchoringと,複数のアンカーを識別するための位置オフセットを符号化するWak ConditionとしてのRoPEの2つのメカニズムを紹介する。
さらに,大規模なビデオからこれらのアンカーを抽出するために,スケーラブルなパイプラインを構築した。
実験により,提案手法は10分を超える高品質なキャラクタビデオを生成し,既存の手法を超越して,ビュー間の表現的アイデンティティと外観整合性を実現する。
関連論文リスト
- AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References [52.81991915377852]
我々は,超忠実なアイデンティティ保存ビデオ生成フレームワークであるAnyIDを提案する。
まず,不均一な同一性入力を結合表現に効果的に統一する,スケーラブルなオムニ参照アーキテクチャを提案する。
第2に、1つの参照を標準アンカーとして指定し、新しい微分プロンプトを用いて正確な属性レベルの制御を可能にする一次参照生成パラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:54:48Z) - VideoMemory: Toward Consistent Video Generation via Memory Integration [28.605816634949814]
VideoMemoryは、Dynamic Memory Bankを通じてナラティブプランニングとビジュアルジェネレーションを統合する。
ダイナミックメモリバンクは、文字、小道具、背景の明示的な視覚的および意味的な記述を格納する。
この検索更新機構は、遠距離ショット間のエンティティの一貫性のある表現を可能にし、コヒーレントなロングフォーム生成をサポートする。
論文 参考訳(メタデータ) (2026-01-07T07:10:32Z) - FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2025-12-12T04:34:53Z) - AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation [36.29956463871403]
テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。
テキストと単一の参照画像から文字一貫性のある映像を生成するコンテキスト対応拡散フレームワークである textbfContextAnyone を提案する。
提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
論文 参考訳(メタデータ) (2025-12-08T09:12:18Z) - BachVid: Training-Free Video Generation with Consistent Background and Character [62.46376250180513]
Diffusion Transformer (DiTs) は、最近、テキスト・トゥ・ビデオ(T2V)生成に大きな進歩をもたらした。
既存のメソッドは通常、参照イメージや広範なトレーニングに依存しており、しばしば文字の一貫性にのみ対処する。
我々は、参照画像を必要としない一貫したビデオ生成を実現する、最初のトレーニング不要な方法であるBachVidを紹介する。
論文 参考訳(メタデータ) (2025-10-24T17:56:37Z) - Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router [72.29811385678168]
MM-DiTベースのモデルであるBind-Your-Avatarを紹介した。
具体的には,音とキャラクタの対応制御に対処するために,誰が誰と何を話し合うのかを結合する,きめ細かい埋め込みルータを組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-24T17:50:16Z) - Phantom: Subject-consistent video generation via cross-modal alignment [16.777805813950486]
シングルオブジェクトとマルチオブジェクトの両方の参照に統一されたビデオ生成フレームワークを提案する。
提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。
論文 参考訳(メタデータ) (2025-02-16T11:02:50Z) - Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation [47.61288672890036]
本研究では,テキスト・ビデオ・モデルにおける自己注意クエリ機能がどのように動作,構造,アイデンティティを制御するかを検討する。
ゼロショットモーション転送法と、一貫したマルチショットビデオ生成のためのトレーニング不要手法の2つの応用を実証する。
論文 参考訳(メタデータ) (2024-12-10T18:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。