論文の概要: DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization
- arxiv url: http://arxiv.org/abs/2505.02192v1
- Date: Sun, 04 May 2025 17:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.478892
- Title: DualReal: Adaptive Joint Training for Lossless Identity-Motion Fusion in Video Customization
- Title(参考訳): DualReal:ビデオカスタマイズにおけるロスレスアイデンティティ・モーション・フュージョンのための適応型ジョイントトレーニング
- Authors: Wenchuan Wang, Mengqi Huang, Yijing Tu, Zhendong Mao,
- Abstract要約: DualRealは、アダプティブジョイントトレーニングを使用して、次元間の相互依存を協調的に構築する新しいフレームワークである。
実験の結果、DualRealはCLIP-IとDINO-Iの指標を平均21.7%、31.8%改善し、ほぼすべてのモーションクオリティの指標で最高のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 23.111197721805027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized text-to-video generation with pre-trained large-scale models has recently garnered significant attention through focusing on identity and motion consistency. Existing works typically follow the isolated customized paradigm, where the subject identity or motion dynamics are customized exclusively. However, this paradigm completely ignores the intrinsic mutual constraints and synergistic interdependencies between identity and motion, resulting in identity-motion conflicts throughout the generation process that systematically degrades. To address this, we introduce DualReal, a novel framework that, employs adaptive joint training to collaboratively construct interdependencies between dimensions. Specifically, DualReal is composed of two units: (1) Dual-aware Adaptation dynamically selects a training phase (i.e., identity or motion), learns the current information guided by the frozen dimension prior, and employs a regularization strategy to avoid knowledge leakage; (2) StageBlender Controller leverages the denoising stages and Diffusion Transformer depths to guide different dimensions with adaptive granularity, avoiding conflicts at various stages and ultimately achieving lossless fusion of identity and motion patterns. We constructed a more comprehensive benchmark than existing methods. The experimental results show that DualReal improves CLIP-I and DINO-I metrics by 21.7% and 31.8% on average, and achieves top performance on nearly all motion quality metrics.
- Abstract(参考訳): 事前訓練された大規模モデルによるカスタマイズされたテキスト・ツー・ビデオ生成は、アイデンティティと動きの一貫性に焦点を合わせることで、近年大きな注目を集めている。
既存の作業は通常、主題のアイデンティティや動きのダイナミクスのみをカスタマイズする、分離されたパラダイムに従っている。
しかしながら、このパラダイムは、本質的な相互制約とアイデンティティと運動間の相乗的相互依存性を完全に無視し、体系的に劣化する生成過程を通してアイデンティティとムーブメントの衝突を引き起こす。
そこで我々はDualRealという,次元間の相互依存性を協調的に構築する適応型共同学習フレームワークを紹介した。
具体的には、DualRealは、2つのユニットから構成される: 1) デュアルアウェア適応はトレーニングフェーズ(例えば、アイデンティティや動き)を動的に選択し、凍結した次元で導かれた現在の情報を学習し、知識リークを避けるために正規化戦略を採用する。
既存の方法よりも包括的なベンチマークを構築しました。
実験の結果、DualRealはCLIP-IとDINO-Iの指標を平均21.7%、31.8%改善し、ほぼすべてのモーションクオリティの指標で最高のパフォーマンスを達成した。
関連論文リスト
- UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。
2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。
並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文 参考訳(メタデータ) (2025-04-02T14:59:39Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization [24.398759596367103]
ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。
MagicIDは、ユーザの好みに合わせて、アイデンティティに一貫性があり、動的にリッチなビデオの生成を促進するために設計された新しいフレームワークである。
実験の結果、MagicIDは一貫性のあるアイデンティティと自然なダイナミクスを実現し、さまざまなメトリクスで既存のメソッドを超越していることがわかった。
論文 参考訳(メタデータ) (2025-03-16T23:15:09Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。