論文の概要: PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation
- arxiv url: http://arxiv.org/abs/2508.05091v1
- Date: Thu, 07 Aug 2025 07:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.663185
- Title: PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation
- Title(参考訳): PoseGen: 長編ビデオ生成のためのインテクストLoRAファインタニング
- Authors: Jingxuan He, Busheng Su, Finn Wong,
- Abstract要約: 本稿では,1つの参照画像と駆動ポーズシーケンスから,特定の被写体の任意の長さのビデオを生成する新しいフレームワークPoseGenを紹介する。
我々の中核となるイノベーションは、アイデンティティ保存のためのトークンレベルで被写体を注入する、コンテキスト内LoRAファインタニング戦略です。
我々はPoseGenがアイデンティティの忠実度において最先端の手法を著しく上回り、精度を高くし、一貫性のあるアーチファクトのない動画を無制限に生成するユニークな能力を示している。
- 参考スコア(独自算出の注目度): 4.417342791754854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long, temporally coherent videos with precise control over subject identity and motion is a formidable challenge for current diffusion models, which often suffer from identity drift and are limited to short clips. We introduce PoseGen, a novel framework that generates arbitrarily long videos of a specific subject from a single reference image and a driving pose sequence. Our core innovation is an in-context LoRA finetuning strategy that injects subject appearance at the token level for identity preservation, while simultaneously conditioning on pose information at the channel level for fine-grained motion control. To overcome duration limits, PoseGen pioneers an interleaved segment generation method that seamlessly stitches video clips together, using a shared KV cache mechanism and a specialized transition process to ensure background consistency and temporal smoothness. Trained on a remarkably small 33-hour video dataset, extensive experiments show that PoseGen significantly outperforms state-of-the-art methods in identity fidelity, pose accuracy, and its unique ability to produce coherent, artifact-free videos of unlimited duration.
- Abstract(参考訳): 被験者のアイデンティティと動きを正確に制御した長時間の時間的コヒーレントなビデオを生成することは、現在の拡散モデルにとって、しばしばアイデンティティのドリフトに悩まされ、短いクリップに制限される深刻な課題である。
本稿では,1つの参照画像と駆動ポーズシーケンスから,特定の被写体の任意の長さのビデオを生成する新しいフレームワークPoseGenを紹介する。
我々の中核的な革新は、アイデンティティ保存のためのトークンレベルでの被写体外観を注入するコンテキスト内LoRA微調整戦略であり、同時に細粒なモーションコントロールのためのチャンネルレベルでのポーズ情報を条件付けする。
PoseGenは、ビデオクリップをシームレスに縫合するインターリーブセグメント生成手法を開拓し、共有KVキャッシュ機構と特殊な遷移プロセスを用いて背景の一貫性と時間的滑らかさを確保する。
非常に小さな33時間のビデオデータセットに基づいて訓練された大規模な実験によると、PoseGenはアイデンティティの忠実さ、正確さ、そして無期限で一貫性のある人工物のないビデオを生成するユニークな能力において、最先端の手法を大幅に上回っている。
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - STAGE: A Stream-Centric Generative World Model for Long-Horizon Driving-Scene Simulation [24.86836673853292]
STAGEは、階層的な特徴調整と、持続可能なビデオ合成のためのマルチフェーズ最適化の先駆けとなる自動回帰フレームワークである。
HTFTはビデオ生成プロセスを通してビデオフレーム間の時間的一貫性を高める。
我々はNuscenesデータセット上で600フレームの高品質なドライビングビデオを生成しました。
論文 参考訳(メタデータ) (2025-06-16T06:53:05Z) - HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation [39.69554411714128]
提案するHumanDiTは,14,000時間の高品質ビデオを含むデータセットに基づいてトレーニングされたポーズ誘導拡散変換器(DiT)ベースのフレームワークである。
HumanDiTは多数のビデオ解像度と可変シーケンス長をサポートし、長いシーケンスのビデオ生成の学習を容易にする。
実験では、様々なシナリオにまたがる長めの、ポーズの正確なビデオを生成する上で、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-02-07T11:36:36Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。
従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。
馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-28T09:46:09Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。