論文の概要: RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
- arxiv url: http://arxiv.org/abs/2504.14977v1
- Date: Mon, 21 Apr 2025 09:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 18:48:39.901983
- Title: RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild
- Title(参考訳): RealisDance-DiT:野生における制御可能なキャラクターアニメーションに向けたシンプルだが強力なベースライン
- Authors: Jingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang,
- Abstract要約: Wan-2.1ビデオ基盤モデルに基づくRealisDance-DiTを紹介する。
基礎モデルアーキテクチャへの最小限の変更が驚くほど強力なベースラインを生み出すことを実証する。
さらに、さまざまな現実世界の課題をキャプチャする新しいテストデータセットも導入しています。
- 参考スコア(独自算出の注目度): 27.205550992261493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable character animation remains a challenging problem, particularly in handling rare poses, stylized characters, character-object interactions, complex illumination, and dynamic scenes. To tackle these issues, prior work has largely focused on injecting pose and appearance guidance via elaborate bypass networks, but often struggles to generalize to open-world scenarios. In this paper, we propose a new perspective that, as long as the foundation model is powerful enough, straightforward model modifications with flexible fine-tuning strategies can largely address the above challenges, taking a step towards controllable character animation in the wild. Specifically, we introduce RealisDance-DiT, built upon the Wan-2.1 video foundation model. Our sufficient analysis reveals that the widely adopted Reference Net design is suboptimal for large-scale DiT models. Instead, we demonstrate that minimal modifications to the foundation model architecture yield a surprisingly strong baseline. We further propose the low-noise warmup and "large batches and small iterations" strategies to accelerate model convergence during fine-tuning while maximally preserving the priors of the foundation model. In addition, we introduce a new test dataset that captures diverse real-world challenges, complementing existing benchmarks such as TikTok dataset and UBC fashion video dataset, to comprehensively evaluate the proposed method. Extensive experiments show that RealisDance-DiT outperforms existing methods by a large margin.
- Abstract(参考訳): コントロール可能なキャラクターアニメーションは、まれなポーズ、スタイル化されたキャラクター、キャラクターとオブジェクトの相互作用、複雑な照明、ダイナミックなシーンを扱う上で、依然として困難な問題である。
これらの問題に対処するために、以前の研究は、精巧なバイパスネットワークを通じてポーズと外観のガイダンスを注入することに重点を置いてきたが、多くの場合、オープンワールドのシナリオへの一般化に苦慮している。
本稿では,基礎モデルが十分に強力である限り,フレキシブルな微調整戦略による簡単なモデル修正が上記の課題に大きく対処できる,という新たな視点を提案する。
具体的には,Wan-2.1ビデオ基盤モデルに基づくRealisDance-DiTを紹介する。
我々の十分な分析結果から,広く採用されている参照ネット設計は大規模DiTモデルに最適であることが明らかとなった。
その代わり、ファンデーションモデルアーキテクチャへの最小限の変更が驚くほど強力なベースラインをもたらすことを示す。
さらに,基礎モデルの先行性を最大限に保ちつつ,微調整時のモデル収束を加速するための低雑音ウォームアップと「大規模なバッチと小さなイテレーション」戦略を提案する。
さらに、TikTokデータセットやUBCファッションビデオデータセットといった既存のベンチマークを補完して、提案手法を総合的に評価する、さまざまな現実的課題をキャプチャする新しいテストデータセットを導入する。
大規模な実験により、RealisDance-DiTは既存の手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- Task-Specific Adaptation with Restricted Model Access [23.114703555189937]
モデルアーキテクチャと重みがまだ隠されている"Gray-box"微調整アプローチは、勾配伝播のみを可能にする。
モデル入力と出力の2つの軽量な学習可能なモジュールを用いて、新しいタスクに適応する、シンプルで効果的なフレームワークを新たに導入する。
我々は,テキスト画像アライメント,テキスト映像アライメント,スケッチ画像アライメントなどのベンチマークで,複数のバックボーンにまたがるアプローチを評価した。
論文 参考訳(メタデータ) (2025-02-02T13:29:44Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Easy Begun is Half Done: Spatial-Temporal Graph Modeling with
ST-Curriculum Dropout [8.924689054841524]
空間時間グラフモデリングのための新しい実装戦略ST-Curriculum Dropoutを提案する。
我々は,高レベルな特徴空間における各ノードの学習困難さを評価し,それらの困難さを排除し,モデルが基本的ST関係のみを扱う必要があることを確かめる。
私たちの戦略は、トレーニング可能なパラメータを追加せずに、標準的なディープラーニングアーキテクチャに適用できます。
論文 参考訳(メタデータ) (2022-11-28T09:47:46Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - The Little W-Net That Could: State-of-the-Art Retinal Vessel
Segmentation with Minimalistic Models [19.089445797922316]
数桁のパラメータが桁違いに少ない標準U-Netのミニマリストバージョンが、現在のベストプラクティスの性能を近似していることを示す。
また,W-Netと呼ばれる単純な拡張も提案する。
また、Artery/Veinセグメンテーション問題にもアプローチを試行し、その結果を最先端技術に整合させる。
論文 参考訳(メタデータ) (2020-09-03T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。