Fugu-MT 論文翻訳(概要): ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

論文の概要: ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

arxiv url: http://arxiv.org/abs/2604.19720v1
Date: Tue, 21 Apr 2026 17:47:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.908876
Title: ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis
Title（参考訳）: ReImagine:画像ファースト合成による制御可能な高画質ビデオ生成の再考
Authors: Zhengwentai Sun, Keru Zheng, Chenghong Li, Hongjie Liao, Xihe Yang, Heyuan Li, Yihao Zhi, Shuliang Ning, Shuguang Cui, Xiaoguang Han,
Abstract要約: 本稿では、事前訓練された画像バックボーンとSMPL-Xに基づくモーションガイダンスを組み合わせたポーズ制御と視点制御が可能なパイプラインを提案する。提案手法は,多彩なポーズと視点の下で高品質で時間的に一貫したビデオを生成する。
参考スコア（独自算出の注目度）: 46.87481841960487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human video generation remains challenging due to the difficulty of jointly modeling human appearance, motion, and camera viewpoint under limited multi-view data. Existing methods often address these factors separately, resulting in limited controllability or reduced visual quality. We revisit this problem from an image-first perspective, where high-quality human appearance is learned via image generation and used as a prior for video synthesis, decoupling appearance modeling from temporal consistency. We propose a pose- and viewpoint-controllable pipeline that combines a pretrained image backbone with SMPL-X-based motion guidance, together with a training-free temporal refinement stage based on a pretrained video diffusion model. Our method produces high-quality, temporally consistent videos under diverse poses and viewpoints. We also release a canonical human dataset and an auxiliary model for compositional human image synthesis. Code and data are publicly available at https://github.com/Taited/ReImagine.
Abstract（参考訳）: 人間の外見、動き、カメラ視点を、限られたマルチビューデータの下で共同でモデル化することが困難であるため、人間のビデオ生成は依然として困難である。既存の方法はこれらの要因を別々に扱うことが多く、制御性や視覚的品質が低下する。この問題を画像ファーストの観点から再検討し、画像生成によって高品質な人間の外観を学習し、映像合成の先駆者として、時間的整合性から外見モデリングを分離する。本稿では、事前訓練された画像バックボーンとSMPL-Xに基づくモーションガイダンスと、事前訓練されたビデオ拡散モデルに基づく訓練不要な時間的改善段階を組み合わせた、ポーズ制御と視点制御が可能なパイプラインを提案する。提案手法は,多彩なポーズと視点の下で高品質で時間的に一貫したビデオを生成する。また、標準的な人間のデータセットと、合成された人間の画像合成のための補助モデルもリリースする。コードとデータはhttps://github.com/Taited/ReImagine.comで公開されている。

関連論文リスト

Human Video Generation from a Single Image with 3D Pose and View Control [62.676151243249556]
HVG(Human Video Generation in 4D)は、1つの画像から高画質のマルチビュー、時間的コヒーレントな人間の映像を生成できる潜時ビデオ拡散モデルである。 1)新しい2次元骨地図を通して3次元関節の解剖学的関係を捉え、3次元情報を導入して自己閉塞を解消するArticulated Pose Modulation、(ii)参照画像とフレーム間安定性のためのポーズシーケンス間の多視点一貫性と整合性を保証するView and Temporal Alignment、(iii)
論文参考訳（メタデータ） (2026-02-24T18:42:20Z)
GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
本研究では,1枚の画像から一対一かつ時間的にコヒーレントなアバターを合成する枠組みを提案する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせたものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文参考訳（メタデータ） (2024-06-03T17:59:57Z)
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。ビデオ編集やパーソナライズにおける応用例を示す。
論文参考訳（メタデータ） (2024-03-13T17:59:02Z)
Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-04T03:09:20Z)
Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文参考訳（メタデータ） (2021-10-27T03:42:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。