論文の概要: ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images
- arxiv url: http://arxiv.org/abs/2505.06537v1
- Date: Sat, 10 May 2025 06:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.896044
- Title: ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images
- Title(参考訳): ProFashion: 複数の参照画像を用いたプロトタイプ誘導型ファッションビデオ生成
- Authors: Xianghao Kong, Qiaosong Qi, Yuanbin Wang, Anyi Rao, Biaolong Chen, Aixi Zhang, Si Liu, Hao Jiang,
- Abstract要約: ファッション生成は、指定された文字の参照画像から時間的に一貫したビデオを合成することを目的としている。
一貫性と時間的一貫性を向上させるためのフレームワークであるProFashionを提案する。
インターネットから収集したMRFashion-7Kデータセットについて評価を行った。
- 参考スコア(独自算出の注目度): 15.345172917297246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion video generation aims to synthesize temporally consistent videos from reference images of a designated character. Despite significant progress, existing diffusion-based methods only support a single reference image as input, severely limiting their capability to generate view-consistent fashion videos, especially when there are different patterns on the clothes from different perspectives. Moreover, the widely adopted motion module does not sufficiently model human body movement, leading to sub-optimal spatiotemporal consistency. To address these issues, we propose ProFashion, a fashion video generation framework leveraging multiple reference images to achieve improved view consistency and temporal coherency. To effectively leverage features from multiple reference images while maintaining a reasonable computational cost, we devise a Pose-aware Prototype Aggregator, which selects and aggregates global and fine-grained reference features according to pose information to form frame-wise prototypes, which serve as guidance in the denoising process. To further enhance motion consistency, we introduce a Flow-enhanced Prototype Instantiator, which exploits the human keypoint motion flow to guide an extra spatiotemporal attention process in the denoiser. To demonstrate the effectiveness of ProFashion, we extensively evaluate our method on the MRFashion-7K dataset we collected from the Internet. ProFashion also outperforms previous methods on the UBC Fashion dataset.
- Abstract(参考訳): ファッションビデオ生成は、指定された文字の参照画像から時間的に一貫したビデオを合成することを目的としている。
既存の拡散ベースの手法は、大きな進歩にもかかわらず、単一の参照イメージのみを入力としてサポートし、特に異なる視点から着物に異なるパターンが存在する場合、ビュー一貫性のあるファッションビデオを生成する能力を著しく制限する。
さらに、広く採用されているムーブメントモジュールは、人体の動きを十分にモデル化することができず、最適時空間的一貫性をもたらす。
これらの課題に対処するために,複数の参照画像を活用するファッションビデオ生成フレームワークProFashionを提案する。
適切な計算コストを維持しつつ,複数の参照画像の特徴を効果的に活用するために,ポーズ情報に基づいてグローバルかつきめ細かな参照特徴を選択・集約するPose-aware Prototype Aggregatorを考案した。
動作の整合性をさらに向上するために,人間のキーポイント運動フローを利用したフローエンハンスプロトタイプ・インスタンティエータを導入する。
ProFashionの有効性を実証するため,インターネットから収集したMRFashion-7Kデータセットを用いて提案手法を広範囲に評価した。
ProFashionはまた、UBC Fashionデータセットで以前のメソッドよりも優れている。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Pose-Guided Fine-Grained Sign Language Video Generation [18.167413937989867]
本稿では,細粒度かつ動きに一貫性のある手話ビデオを生成するための新しい Pose-Guided Motion Model (PGMM) を提案する。
まず,光学式フローワープによる特徴量の変形を解消する新しい粗い運動モジュール(CMM)を提案する。
第2に、RGBのモーダル融合とポーズ特徴を導く新しいPose Fusion Module (PFM)を提案する。
論文 参考訳(メタデータ) (2024-09-25T07:54:53Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文 参考訳(メタデータ) (2024-05-27T21:23:20Z) - DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion [63.179505586264014]
静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
論文 参考訳(メタデータ) (2023-04-12T17:59:17Z) - Learning Long-Term Style-Preserving Blind Video Temporal Consistency [6.6908747077585105]
本論文では, 映像に適用される変換を, 繰り返しニューラルネットワークという形で後処理モデルを提案する。
我々のモデルは、最近GANビデオ生成のために導入されたPing Pongプロシージャとそれに対応する損失を用いて訓練されている。
DAVISとvidevo.netデータセットのモデルを評価し、フリック除去に関する最先端の結果を提供することを示す。
論文 参考訳(メタデータ) (2021-03-12T13:54:34Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Adaptive Compact Attention For Few-shot Video-to-video Translation [13.535988102579918]
本稿では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。
我々の中心となる考え方は、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することである。
提案手法を大規模トーキングヘッドビデオデータセットと人間のダンスデータセットで広範囲に評価した。
論文 参考訳(メタデータ) (2020-11-30T11:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。