論文の概要: GenHSI: Controllable Generation of Human-Scene Interaction Videos
- arxiv url: http://arxiv.org/abs/2506.19840v1
- Date: Tue, 24 Jun 2025 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.765647
- Title: GenHSI: Controllable Generation of Human-Scene Interaction Videos
- Title(参考訳): GenHSI:人間とシーンのインタラクションビデオの制御可能な生成
- Authors: Zekun Li, Rui Zhou, Rahul Sajnani, Xiaoyan Cong, Daniel Ritchie, Srinath Sridhar,
- Abstract要約: GenHSIは、長い人間とシーンの対話ビデオの制御可能な生成のためのトレーニング不要の方法である。
映画のアニメーションからインスピレーションを得て、長い映像生成タスクを3段階に分割することで、過去の作品の限界を克服する。
我々は、トレーニングなしで任意の数のキャラクタアクションを含む一貫したカメラポーズで、初めて長いビデオシーケンスを生成する。
- 参考スコア(独自算出の注目度): 22.186091372007105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained video diffusion models have exhibited remarkable capabilities in diverse video generation. However, existing solutions face several challenges in using these models to generate long movie-like videos with rich human-object interactions that include unrealistic human-scene interaction, lack of subject identity preservation, and require expensive training. We propose GenHSI, a training-free method for controllable generation of long human-scene interaction videos (HSI). Taking inspiration from movie animation, our key insight is to overcome the limitations of previous work by subdividing the long video generation task into three stages: (1) script writing, (2) pre-visualization, and (3) animation. Given an image of a scene, a user description, and multiple images of a person, we use these three stages to generate long-videos that preserve human-identity and provide rich human-scene interactions. Script writing converts complex human tasks into simple atomic tasks that are used in the pre-visualization stage to generate 3D keyframes (storyboards). These 3D keyframes are rendered and animated by off-the-shelf video diffusion models for consistent long video generation with rich contacts in a 3D-aware manner. A key advantage of our work is that we alleviate the need for scanned, accurate scenes and create 3D keyframes from single-view images. We are the first to generate a long video sequence with a consistent camera pose that contains arbitrary numbers of character actions without training. Experiments demonstrate that our method can generate long videos that effectively preserve scene content and character identity with plausible human-scene interaction from a single image scene. Visit our project homepage https://kunkun0w0.github.io/project/GenHSI/ for more information.
- Abstract(参考訳): 大規模な事前訓練ビデオ拡散モデルは、多様なビデオ生成において顕著な機能を示した。
しかし、既存のソリューションは、非現実的な人間とシーンの相互作用、主題のアイデンティティの保存の欠如、高価なトレーニングを必要とするような、リッチな人間とオブジェクトの相互作用を持つ長い映画のようなビデオを生成するためにこれらのモデルを使用する際のいくつかの課題に直面している。
GenHSIは,ヒトとシーンの対話ビデオ(HSI)の制御可能な生成のための訓練不要な手法である。
映画のアニメーションからインスピレーションを得て,1)脚本作成,(2)前視覚化,(3)アニメーションの3段階に分割することで,従来の作品の限界を克服する。
シーンの画像、ユーザ記述、人物の複数の画像が与えられた場合、これらの3つのステージを使用して、人間のアイデンティティを保存し、リッチなヒューマン・シーンのインタラクションを提供するロングビデオを生成する。
スクリプト記述は、複雑なヒューマンタスクを視覚化段階で使用される単純なアトミックタスクに変換し、3Dキーフレーム(ストーリーボード)を生成する。
これらの3Dキーフレームは、オフザシェルフビデオ拡散モデルによってレンダリングされ、3D対応でリッチなコンタクトを持つ一貫した長ビデオ生成のためにアニメーションされる。
私たちの研究の重要な利点は、スキャンされた正確なシーンの必要性を軽減し、シングルビューイメージから3Dキーフレームを作成することです。
我々は、トレーニングなしで任意の数のキャラクタアクションを含む一貫したカメラポーズで、初めて長いビデオシーケンスを生成する。
実験により,本手法はシーン内容とキャラクタのアイデンティティを,単一のシーンから有望な人間とシーンのインタラクションで効果的に保存する長大なビデオを生成することができることを示した。
詳細はプロジェクトのホームページhttps://kunkun0w0.github.io/project/GenHSI/を参照してください。
関連論文リスト
- Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Gaussians-to-Life: Text-Driven Animation of 3D Gaussian Splatting Scenes [49.26872036160368]
ガウススティング表現における高品質な3Dシーンの一部をアニメーションする手法を提案する。
従来の作業とは対照的に、複雑な既存の3Dシーンのリアルなアニメーションを可能にする。
論文 参考訳(メタデータ) (2024-11-28T16:01:58Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。