Fugu-MT 論文翻訳(概要): Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control

論文の概要: Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control

arxiv url: http://arxiv.org/abs/2406.03035v1
Date: Wed, 5 Jun 2024 08:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:29:27.249137
Title: Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control
Title（参考訳）: Follow-Your-Pose v2:Stable Pose Controlのためのマルチコンディション誘導文字アニメーション
Authors: Jingyun Xue, Hongfa Wang, Qi Tian, Yue Ma, Andong Wang, Zhiyuan Zhao, Shaobo Min, Wenzhe Zhao, Kaihao Zhang, Heung-Yeung Shum, Wei Liu, Mengyang Liu, Wenhan Luo,
Abstract要約: Follow-Your-Pose v2は、インターネットで簡単に利用できるノイズの多いオープンソースビデオでトレーニングすることができる。われわれの手法は、2つのデータセットと7つのメトリクスで35%以上のマージンで最先端の手法より優れています。
参考スコア（独自算出の注目度）: 77.08568533331206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pose-controllable character video generation is in high demand with extensive applications for fields such as automatic advertising and content creation on social media platforms. While existing character image animation methods using pose sequences and reference images have shown promising performance, they tend to struggle with incoherent animation in complex scenarios, such as multiple character animation and body occlusion. Additionally, current methods request large-scale high-quality videos with stable backgrounds and temporal consistency as training datasets, otherwise, their performance will greatly deteriorate. These two issues hinder the practical utilization of character image animation tools. In this paper, we propose a practical and robust framework Follow-Your-Pose v2, which can be trained on noisy open-sourced videos readily available on the internet. Multi-condition guiders are designed to address the challenges of background stability, body occlusion in multi-character generation, and consistency of character appearance. Moreover, to fill the gap of fair evaluation of multi-character pose animation, we propose a new benchmark comprising approximately 4,000 frames. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods by a margin of over 35\% across 2 datasets and on 7 metrics. Meanwhile, qualitative assessments reveal a significant improvement in the quality of generated video, particularly in scenarios involving complex backgrounds and body occlusion of multi-character, suggesting the superiority of our approach.
Abstract（参考訳）: ソーシャルメディアプラットフォームにおける自動広告やコンテンツ作成などの分野への広範な応用により、ポーズコントロール可能なキャラクタビデオ生成が要求されている。ポーズシーケンスと参照画像を用いた既存のキャラクタ画像アニメーション手法は有望なパフォーマンスを示しているが、複数のキャラクタアニメーションやボディーオブクルージョンといった複雑なシナリオでは、非一貫性のアニメーションに苦労する傾向がある。さらに、現在の方法では、トレーニングデータセットとして安定したバックグラウンドと時間的一貫性を備えた大規模な高品質なビデオが要求される。これら2つの課題は、文字画像アニメーションツールの実用化を妨げている。本稿では,インターネット上で容易に利用できるノイズの多いオープンソースビデオに基づいてトレーニング可能な,実用的で堅牢なフレームワークFollow-Your-Pose v2を提案する。マルチコンディションガイドは,背景安定性,マルチキャラクタ生成時の身体閉塞,キャラクタの外観の整合性といった課題に対処するように設計されている。さらに,マルチキャラクタポーズアニメーションの公平な評価のギャップを埋めるために,約4,000フレームからなる新しいベンチマークを提案する。大規模な実験により、我々の手法は2つのデータセットと7つのメトリクスで35\%以上のマージンで最先端の手法より優れていることが示された。一方, 質的評価では, 生成ビデオの品質が著しく向上し, 特に複雑な背景やマルチキャラクタの身体閉塞などのシナリオにおいて, アプローチの優位性が示唆された。

関連論文リスト

DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文参考訳（メタデータ） (2024-11-30T08:42:13Z)
Alignment is All You Need: A Training-free Augmentation Strategy for Pose-guided Video Generation [19.408715783816167]
生成された映像シーケンスが参照画像の微妙さを確実に保持する訓練不要のフレームワークを導入する。我々は、骨格と動きの先行情報をポーズ情報から切り離し、アニメーション生成の正確な制御を可能にする。提案手法は,大規模なデータセットや高価な計算資源を必要とせず,映像生成の質を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-29T13:08:12Z)
UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文参考訳（メタデータ） (2024-06-03T10:51:10Z)
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。 SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。 VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-05-28T13:18:32Z)
Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文参考訳（メタデータ） (2024-04-21T14:43:31Z)
CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization [27.55341255800119]
本稿では,3Dキャラクタを効率的に生成するフレームワークである characterGen を提案する。変換器ベースで一般化可能なスパースビュー再構成モデルが,我々のアプローチの他のコアコンポーネントである。複数のポーズやビューでレンダリングされたアニメキャラクタのデータセットをキュレートして,モデルをトレーニングし,評価した。
論文参考訳（メタデータ） (2024-02-27T05:10:59Z)
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文参考訳（メタデータ） (2023-11-28T12:27:15Z)
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。 MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文参考訳（メタデータ） (2023-11-27T18:32:31Z)
Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。 GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文参考訳（メタデータ） (2022-11-14T11:41:44Z)
DeepMultiCap: Performance Capture of Multiple Characters Using Sparse Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文参考訳（メタデータ） (2021-05-01T14:32:13Z)
Self-Supervised Equivariant Scene Synthesis from Video [84.15595573718925]
本稿では,映像からシーン表現を学習するフレームワークを提案する。トレーニング後、画像エンコーディングをリアルタイムで操作して、非表示のコンポーネントの組み合わせを生成することができる。背景を持つMNISTの移動、2Dビデオゲームのスプライト、ファッションモデリングの3つのデータセットで結果を示す。
論文参考訳（メタデータ） (2021-02-01T14:17:31Z)
Dual Attention on Pyramid Feature Maps for Image Captioning [11.372662279301522]
本稿では、ピラミッド画像の特徴マップに二重注意を適用し、視覚・意味的相関を探索し、生成文の品質を向上させることを提案する。 Flickr8K, Flickr30K, MS COCOの3つのよく知られたデータセットについて総合的な実験を行った。複合キャプションモデルは単一モデルモードで非常に有望な性能を達成する。
論文参考訳（メタデータ） (2020-11-02T23:42:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。