論文の概要: Character Mixing for Video Generation
- arxiv url: http://arxiv.org/abs/2510.05093v1
- Date: Mon, 06 Oct 2025 17:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.046128
- Title: Character Mixing for Video Generation
- Title(参考訳): 映像生成のためのキャラクタミキシング
- Authors: Tingting Liao, Chongjian Ge, Guangyi Liu, Hao Li, Yi Zhou,
- Abstract要約: テキスト・ビデオ生成における文字間相互作用について検討する。
鍵となる課題は、各キャラクタのアイデンティティと振舞いを保ちながら、コヒーレントなコンテキスト間相互作用を可能にすることである。
クロスキャラクタ・エンベディングとクロスキャラクタ・エンベディングでこれらの問題に対処するフレームワークを導入する。
- 参考スコア(独自算出の注目度): 15.285132540147304
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where characters interact naturally across different worlds? We study inter-character interaction in text-to-video generation, where the key challenge is to preserve each character's identity and behaviors while enabling coherent cross-context interaction. This is difficult because characters may never have coexisted and because mixing styles often causes style delusion, where realistic characters appear cartoonish or vice versa. We introduce a framework that tackles these issues with Cross-Character Embedding (CCE), which learns identity and behavioral logic across multimodal sources, and Cross-Character Augmentation (CCA), which enriches training with synthetic co-existence and mixed-style data. Together, these techniques allow natural interactions between previously uncoexistent characters without losing stylistic fidelity. Experiments on a curated benchmark of cartoons and live-action series with 10 characters show clear improvements in identity preservation, interaction quality, and robustness to style delusion, enabling new forms of generative storytelling.Additional results and videos are available on our project page: https://tingtingliao.github.io/mimix/.
- Abstract(参考訳): ビーン氏がトムとジェリーに足を踏み入れるのを想像してみてください。
テキスト・ビデオ・ジェネレーションにおけるキャラクタ間相互作用について検討し、各キャラクタの同一性や振る舞いを保ちながら、コヒーレントなコンテキスト間相互作用を実現することが課題である。
これは、登場人物が決して共存しなかったことや、現実的なキャラクターが漫画的あるいはその逆に見えるようなスタイルの妄想を引き起こすことがしばしばあるためである。
マルチモーダルソース間のアイデンティティと振る舞いのロジックを学習するCCE(Cross-Character Embedding)と、合成共存と混合スタイルデータによるトレーニングを充実するCCA(Cross-Character Augmentation)を用いて、これらの課題に対処するフレームワークを導入する。
これらの技法により、それまで存在していなかった文字間の自然な相互作用が、スタイル的忠実さを損なうことなく可能となる。
10文字の漫画とライブアクションシリーズのキュレートされたベンチマーク実験は、アイデンティティの保存、インタラクションの品質、そしてスタイルの妄想に対する堅牢性を明確に改善し、新たな生成ストーリーテリングを可能にした。
関連論文リスト
- Constella: Supporting Storywriters' Interconnected Character Creation through LLM-based Multi-Agents [7.537475180985097]
Constellaは、ストーリーライターの相互接続された文字生成プロセスをサポートするマルチエージェントツールである。
ストーリーライターによる7~8日間の展開調査は、Constellaが関連する文字からなる拡張コミュニティの構築を可能にしたことを示している。
我々は、マルチエージェントインタラクションが、キャラクタのキャラクタに対して、ライターの注意と努力を分散させるのにどのように役立つかを議論することで締めくくった。
論文 参考訳(メタデータ) (2025-07-08T09:39:02Z) - MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation [47.61288672890036]
本研究では,テキスト・ビデオ・モデルにおける自己注意クエリ機能がどのように動作,構造,アイデンティティを制御するかを検討する。
ゼロショットモーション転送法と、一貫したマルチショットビデオ生成のためのトレーニング不要手法の2つの応用を実証する。
論文 参考訳(メタデータ) (2024-12-10T18:49:39Z) - StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation [10.652011707000202]
StoryMakerは、顔の整合性だけでなく、衣服、髪型、身体の整合性も保持するパーソナライズソリューションである。
StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。
論文 参考訳(メタデータ) (2024-09-19T08:53:06Z) - MAAIP: Multi-Agent Adversarial Interaction Priors for imitation from
fighting demonstrations for physics-based characters [5.303375034962503]
提案手法は, マルチエージェント・ジェネレーティブ・ジェネレーティブ・シミュレーション・ラーニングに基づく新しいアプローチである。
我々のシステムは、各キャラクターが各アクターに関連する対話的スキルを模倣できるように、制御ポリシーを訓練する。
このアプローチはボクシングとフルボディの格闘技の2つの異なるスタイルでテストされ、異なるスタイルを模倣する手法の能力を実証している。
論文 参考訳(メタデータ) (2023-11-04T20:40:39Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Triangular Character Animation Sampling with Motion, Emotion, and
Relation [78.80083186208712]
本稿では,キャラクターの身体の動き,表情,社会的関係を関連づけることで,アニメーションのサンプリングと合成を行う新しい枠組みを提案する。
本手法は,3次元キャラクタアニメーションの自動生成,非プレーヤキャラクタ(NPC)間のインタラクションの合成,バーチャルリアリティ(VR)におけるマシン感情インテリジェンスの向上を支援するアニメーターを提供する。
論文 参考訳(メタデータ) (2022-03-09T18:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。