論文の概要: FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization
- arxiv url: http://arxiv.org/abs/2605.15824v1
- Date: Fri, 15 May 2026 10:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.253059
- Title: FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization
- Title(参考訳): FashionChameleon: リアルタイムでインタラクティブなヒューマンガーメントビデオのカスタマイズを目指す
- Authors: Quanjian Song, Yefeng Shen, Mengting Chen, Hao Sun, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Liujuan Cao,
- Abstract要約: FashionChameleonは、自動回帰ビデオ生成におけるヒューマンガーメントのカスタマイズのためのリアルタイムかつインタラクティブなフレームワークである。
シングルガーメント映像データのみを用いて、動きコヒーレンスを保ちながら、インタラクティブなマルチガーメント映像のカスタマイズを実現する方法について述べる。
- 参考スコア(独自算出の注目度): 35.648761912138795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-centric video customization, particularly at the garment level, has shown significant commercial value. However, existing approaches cannot support low-latency and interactive garment control, which is crucial for applications such as e-commerce and content creation. This paper studies how to achieve interactive multi-garment video customization while preserving motion coherence using only single-garment video data. We present FashionChameleon, a real-time and interactive framework for human-garment customization in autoregressive video generation, where users can interactively switch garment during generation. FashionChameleon consists of three key techniques: (i) Instead of training on multi-garment video data, we train a Teacher Model with In-Context Learning on a single reference-garment pair. By retaining the image-to-video training paradigm while enforcing a mismatch between the reference and garment image, the model is encouraged to implicitly preserve coherence during single-garment switching. (ii) To achieve consistency and efficiency during generation, we introduce Streaming Distillation with In-Context Learning, which fine-tunes the model with in-context teacher forcing and improves extrapolation consistency via gradient-reweighted distribution matching distillation. (iii) To extend the model for interactive multi-garment video customization, we propose Training-Free KV Cache Rescheduling, which includes garment KV refresh, historical KV withdraw, and reference KV disentangle to achieve garment switching while preserving motion coherence. Our FashionChameleon uniquely supports interactive customization and consistent long-video extrapolation, while achieving real-time generation at 23.8 FPS on a single GPU, 30-180$\times$ faster than existing baselines.
- Abstract(参考訳): 人間の中心的なビデオのカスタマイズ、特に衣服のレベルでは、商業的価値が顕著である。
しかし、既存のアプローチは、電子商取引やコンテンツ作成といったアプリケーションにとって重要な、低レイテンシでインタラクティブな衣服制御をサポートできない。
本稿では,シングルガーメント映像データのみを用いて,動きコヒーレンスを保ちながら,インタラクティブなマルチガーメント映像のカスタマイズを実現する方法について検討する。
FashionChameleonは、自動回帰ビデオ生成における人着カスタマイズのためのリアルタイムかつインタラクティブなフレームワークであり、ユーザーは生成時に対話的に衣料を切り替えることができる。
FashionChameleonには3つの重要なテクニックがある。
i)マルチガーメント映像データをトレーニングする代わりに,教師モデルとインコンテクスト学習を1対のリファレンスガーメントペアでトレーニングする。
基準画像と衣料画像のミスマッチを強制しながら、映像間トレーニングパラダイムを保持することにより、単着切替時のコヒーレンスを暗黙的に保持することが奨励される。
(II) 生成時の一貫性と効率を達成するために, 教師の強制力でモデルを微調整し, 勾配重み付き分布マッチング蒸留による補間整合性を向上させる, インコンテキスト学習によるストリーム蒸留を導入する。
3) インタラクティブなマルチガーメント映像のカスタマイズモデルを拡張するため, 動作コヒーレンスを維持しながら衣料KVリフレッシュ, 歴史的なKVリフレッシュ, 参照KVアンタングルを含むトレーニングフリーなKVキャッシュ再スケジューリングを提案する。
FashionChameleonは、インタラクティブなカスタマイズと一貫した長ビデオ外挿をサポートすると同時に、1つのGPUで23.8 FPSのリアルタイム生成を実現し、既存のベースラインよりも30-180$\times$高速です。
関連論文リスト
- DiT as Real-Time Rerenderer: Streaming Video Stylization with Autoregressive Diffusion Transformer [53.36692512160234]
本稿では,Diffusion Transformer をベースとした蒸気式ビデオスタイリングフレームワーク RTR-DiT (DiT as Real-Time Rerenderer) を提案する。
まず、ビデオスタイリゼーションデータセット上で双方向の教師モデルを微調整し、テキスト誘導と参照誘導の両方の動画スタイリゼーションタスクをサポートする。
次に, 自己強制・分散マッチング蒸留による後処理により, 数段階の自己回帰モデルに蒸留する。
実験の結果,RTR-DiTはテキスト誘導と参照誘導の両方で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-04-15T05:52:43Z) - ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks [46.442660004277734]
我々は,画像ペアから映像編集能力を学習する効率的なフレームワークImVideoEditを提案する。
トレーニング済みの3Dアテンションモジュールを凍結し、画像を単一フレームビデオとして扱うことにより、2次元空間学習プロセスを分離し、元の時間的ダイナミクスの保存を支援する。
計算オーバーヘッドが極めて少ない5つのエポックに対して、たった13Kイメージペアをトレーニングしているにも関わらず、ImVideoEditは、広範なビデオデータセットでトレーニングされたより大きなモデルに匹敵する、編集の忠実さと時間的一貫性を実現している。
論文 参考訳(メタデータ) (2026-04-09T08:22:09Z) - PEARL: Personalized Streaming Video Understanding Model [50.273809779498464]
マルチモーダルパーソナライズ法は、主に静的画像やオフラインビデオに限られる。
PEARL-Benchはこの困難な設定を評価するために特別に設計された最初の包括的なベンチマークである。
PEARLは8つのオフラインおよびオンラインモデルにわたる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-20T18:47:54Z) - STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits [44.82339975771063]
STARCasterは、音声駆動のポートレートアニメーションとフリーポイントのトーキングポートレートの両方に対処する、アイデンティティを意識したビデオ拡散モデルである。
モデルは推論時に生成されたものよりも長い時間的文脈から学習し、既存の自己回帰的アプローチに共通する過度に静的なアニメーションを緩和する。
論文 参考訳(メタデータ) (2025-12-15T11:59:01Z) - Chirality in Action: Time-Aware Video Representation Learning by Latent Straightening [54.66784646111214]
新しいタスク:カイラルな行動認識(chiral action recognition)を導入し、時間的に反対な行動のペアを区別する必要がある。
私たちのゴールは、これらのカイラルペア間の線形分離性を提供する、時間を考慮したビデオ表現を作ることです。
その結果、3つのデータセットにまたがって提案したタスクに対して,コンパクトだが時間に敏感なビデオ表現が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-10T11:23:10Z) - Model See Model Do: Speech-Driven Facial Animation with Style Control [14.506128477193991]
音声駆動の3D顔アニメーションは、仮想アバター、ゲーム、デジタルコンテンツ作成などのアプリケーションにおいて重要な役割を果たす。
既存の手法は、正確な唇同期を実現し、基本的な感情表現を生成するために大きな進歩を遂げてきた。
本稿では,参照スタイルクリップ上で遅延拡散モデルを条件とした新しい例ベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-02T14:47:21Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。