論文の概要: AnyCharV: Bootstrap Controllable Character Video Generation with Fine-to-Coarse Guidance
- arxiv url: http://arxiv.org/abs/2502.08189v1
- Date: Wed, 12 Feb 2025 07:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:14.684344
- Title: AnyCharV: Bootstrap Controllable Character Video Generation with Fine-to-Coarse Guidance
- Title(参考訳): AnyCharV: きめ細かい誘導によるブートストラップ制御文字生成
- Authors: Zhao Wang, Hao Wen, Lingting Zhu, Chenming Shang, Yujiu Yang, Qi Dou,
- Abstract要約: 本稿では,任意のソース文字とターゲットシーンを用いてフレキシブルにキャラクタ映像を生成する新しいフレームワークであるAnyCharVを提案する。
提案手法は,2段階の訓練プロセスを伴う。第1段階では,ポーズガイダンスを用いて,原文字とターゲットシーンを統合可能なベースモデルを開発する。
第2段階はさらに自己ブート機構を通じて制御可能な生成をブートストラップし、生成した映像を第1段階に使用し、微細マスクを粗いものに置き換える。
- 参考スコア(独自算出の注目度): 36.27326882135989
- License:
- Abstract: Character video generation is a significant real-world application focused on producing high-quality videos featuring specific characters. Recent advancements have introduced various control signals to animate static characters, successfully enhancing control over the generation process. However, these methods often lack flexibility, limiting their applicability and making it challenging for users to synthesize a source character into a desired target scene. To address this issue, we propose a novel framework, AnyCharV, that flexibly generates character videos using arbitrary source characters and target scenes, guided by pose information. Our approach involves a two-stage training process. In the first stage, we develop a base model capable of integrating the source character with the target scene using pose guidance. The second stage further bootstraps controllable generation through a self-boosting mechanism, where we use the generated video in the first stage and replace the fine mask with the coarse one, enabling training outcomes with better preservation of character details. Experimental results demonstrate the effectiveness and robustness of our proposed method. Our project page is https://anycharv.github.io.
- Abstract(参考訳): キャラクタビデオ生成は、特定のキャラクタを特徴とする高品質なビデオを作成することに焦点を当てた、重要な現実世界のアプリケーションである。
近年の進歩は静的文字をアニメーション化するための様々な制御信号を導入し、生成プロセスの制御の強化に成功している。
しかし、これらの手法は柔軟性に欠けることが多く、適用性が制限され、ユーザーがソースキャラクタを所望のターゲットシーンに合成することが難しくなる。
この問題に対処するために,任意のソース文字とターゲットシーンを用いてフレキシブルにキャラクタ映像を生成する新しいフレームワークであるAnyCharVを提案する。
このアプローチには2段階のトレーニングプロセスが必要です。
第1段階では、ポーズガイダンスを用いて、ソースキャラクタとターゲットシーンを統合可能なベースモデルを開発する。
第2段階はさらに自己ブーイング機構を通じて制御可能な生成をブートストラップし、生成した映像を第1段階に使用し、微かなマスクを粗いマスクに置き換え、キャラクタの詳細の保存性を向上したトレーニング結果を実現する。
実験の結果,提案手法の有効性とロバスト性を示した。
私たちのプロジェクトページはhttps://anycharv.github.io.comです。
関連論文リスト
- HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment [13.320911720001277]
本稿では,テキスト・ツー・ビデオ(T2V)タスクにDPO(Direct Preference Optimization)の戦略を導入する。
既存のT2V生成手法では、人間の好みで生成されたビデオのアライメントをガイドする、正確な損失関数を備えた十分に整形されたパイプラインが欠如している。
論文 参考訳(メタデータ) (2025-02-02T16:55:42Z) - Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance [29.768141136041454]
分離されたテキストをベースとした新しいマルチキャラクタ・ビデオ生成フレームワークを提案する。
具体的には、まずポーズシーケンスから文字マスクを抽出し、各生成文字の空間的位置を識別し、各文字の単一プロンプトをLLMで取得する。
ビデオ生成結果の可視化により,本手法の精度の高いマルチキャラクタ生成の可能性を示した。
論文 参考訳(メタデータ) (2024-12-21T05:49:40Z) - Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-12T18:41:20Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free
Videos [107.65147103102662]
本研究では、ポーズ制御可能なキャラクタビデオを得るために、データセット(ポーズペアとポーズフリービデオ)と事前訓練されたテキスト・ツー・イメージ(T2I)モデルを利用する。
具体的には、第1段階では、キーポイントと画像のペアのみが制御可能なテキストと画像の生成にのみ使用される。
第2段階では、学習可能な時間的自己アテンションと修正されたクロスフレーム自己アテンションブロックを追加することで、ポーズのないビデオデータセットを介して、上記のネットワークの動きを微調整する。
論文 参考訳(メタデータ) (2023-04-03T17:55:14Z) - REST: REtrieve & Self-Train for generative action recognition [54.90704746573636]
本稿では,ビデオ・アクション認識のための事前学習型生成ビジョン・アンド・ランゲージ(V&L)基礎モデルを提案する。
動作クラスを生成するための生成モデルの直接微調整は、過度な過度なオーバーフィッティングに苦しむことを示す。
2つの主要なコンポーネントからなるトレーニングフレームワークであるRESTを紹介します。
論文 参考訳(メタデータ) (2022-09-29T17:57:01Z) - Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。
トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。
背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文 参考訳(メタデータ) (2021-02-01T14:17:31Z) - Playable Video Generation [47.531594626822155]
我々は,ユーザが生成した映像を,ビデオゲームのように毎回個別のアクションを選択することで制御できるようにすることを目標とする。
タスクの難しさは、意味的に一貫性のあるアクションを学習することと、ユーザ入力に条件付けされたリアルなビデオを生成することの両方にある。
本稿では,ビデオの大規模なデータセットに基づいて,自己教師型で訓練されたPVGのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-28T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。