論文の概要: MoCha:End-to-End Video Character Replacement without Structural Guidance
- arxiv url: http://arxiv.org/abs/2601.08587v2
- Date: Wed, 14 Jan 2026 02:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 14:49:41.199283
- Title: MoCha:End-to-End Video Character Replacement without Structural Guidance
- Title(参考訳): MoCha:構造誘導のないエンディング・ツー・エンドビデオキャラクタのリプレース
- Authors: Zhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li,
- Abstract要約: MoChaは、ビデオキャラクタをユーザが提供するアイデンティティに置き換えるためのフレームワークである。
条件対応のRoPEを導入し,RLをベースとしたポストトレーニングステージを採用する。
我々は,Unreal Engine 5 (UE5)で構築された高忠実なレンダリングデータセット,現在のポートレートアニメーション技術で合成された表現駆動データセット,既存のビデオマスクペアから派生した拡張データセットの3つの特別なデータセットを設計する。
- 参考スコア(独自算出の注目度): 14.573557179926079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha
- Abstract(参考訳): 制御可能なビデオキャラクタをユーザが提供するアイデンティティに置き換えることは、ペアのビデオデータが不足しているため、依然として難しい問題である。
以前の作業は、フレーム単位のセグメンテーションマスクと明示的な構造ガイダンス(例えば、骨格、深さ)を必要とするリコンストラクションベースのパラダイムに大きく依存していた。
しかしながら、この依存は、オクルージョン、キャラクターとオブジェクトの相互作用、異常なポーズ、あるいは難解な照明を含む複雑なシナリオにおける一般化可能性を大幅に制限し、しばしば視覚的アーティファクトや時間的矛盾につながる。
本稿では、任意のフレームマスクを1つだけ必要とすることで、これらの制限を回避できる先駆的なフレームワークであるMoChaを提案する。
マルチモーダル入力条件を効果的に適応し、顔の同一性を高めるため、条件認識型RoPEを導入し、RLベースの後学習段階を採用する。
さらに,有資格なペアリング学習データの不足を克服するために,包括的データ構築パイプラインを提案する。
具体的には、Unreal Engine 5 (UE5) で構築された高忠実なレンダリングデータセット、現在のポートレートアニメーション技術で合成された表現駆動データセット、既存のビデオマスクペアから派生した拡張データセットの3つの特別なデータセットを設計する。
大規模な実験により,本手法は既存の最先端手法を著しく上回っていることが示された。
さらなる研究を促進するために、コードを公開します。
orange-3dv-team.github.io/MoCha
関連論文リスト
- From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router [72.29811385678168]
MM-DiTベースのモデルであるBind-Your-Avatarを紹介した。
具体的には,音とキャラクタの対応制御に対処するために,誰が誰と何を話し合うのかを結合する,きめ細かい埋め込みルータを組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-24T17:50:16Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。