論文の概要: ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration
- arxiv url: http://arxiv.org/abs/2604.01043v1
- Date: Wed, 01 Apr 2026 15:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.070092
- Title: ONE-SHOT: Compositional Human-Environment Video Synthesis via Spatial-Decoupled Motion Injection and Hybrid Context Integration
- Title(参考訳): ONE-SHOT:空間分離型モーションインジェクションとハイブリッドコンテキスト統合による構成的人間環境ビデオ合成
- Authors: Fengyuan Yang, Luying Huang, Jiazhi Guan, Quanwei Yang, Dongwei Pan, Jianglin Fu, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Angela Yao,
- Abstract要約: 人環境ビデオ生成のためのパラメータ効率のよいフレームワークであるONE-SHOTを提案する。
我々の重要な洞察は、生成過程を不整合信号に分解することであり、特に、人間を環境条件から切り離す標準的な空間注入機構を導入する。
提案手法は最先端の手法よりも優れており,ビデオ合成における優れた構造制御と創造的多様性を提供する。
- 参考スコア(独自算出の注目度): 49.72976665549397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Video Foundation Models (VFMs) have revolutionized human-centric video synthesis, yet fine-grained and independent editing of subjects and scenes remains a critical challenge. Recent attempts to incorporate richer environment control through rigid 3D geometric compositions often encounter a stark trade-off between precise control and generative flexibility. Furthermore, the heavy 3D pre-processing still limits practical scalability. In this paper, we propose ONE-SHOT, a parameter-efficient framework for compositional human-environment video generation. Our key insight is to factorize the generative process into disentangled signals. Specifically, we introduce a canonical-space injection mechanism that decouples human dynamics from environmental cues via cross-attention. We also propose Dynamic-Grounded-RoPE, a novel positional embedding strategy that establishes spatial correspondences between disparate spatial domains without any heuristic 3D alignments. To support long-horizon synthesis, we introduce a Hybrid Context Integration mechanism to maintain subject and scene consistency across minute-level generations. Experiments demonstrate that our method significantly outperforms state-of-the-art methods, offering superior structural control and creative diversity for video synthesis. Our project has been available on: https://martayang.github.io/ONE-SHOT/.
- Abstract(参考訳): ビデオファウンデーションモデル(VFM)の最近の進歩は、人間中心のビデオ合成に革命をもたらしたが、被写体やシーンの微粒で独立した編集は重要な課題である。
近年, 厳密な3次元幾何学的構成による環境制御を取り入れようとする試みは, 正確な制御と生成の柔軟性のトレードオフにしばしば遭遇する。
さらに、重い3D前処理は実用的スケーラビリティを制限している。
本稿では,人文環境ビデオ生成のためのパラメータ効率のよいフレームワークであるONE-SHOTを提案する。
私たちの重要な洞察は、生成過程を非絡み合った信号に分解することです。
具体的には,クロスアテンションを介して環境条件から人間の力学を分離する標準的な空間注入機構を導入する。
また、異なる空間領域間の空間的対応をヒューリスティックな3次元アライメントなしで確立する新しい位置埋め込み戦略であるDynamic-Grounded-RoPEを提案する。
時間軸合成を支援するために,主観的・場面的整合性を維持するためのHybrid Context Integration機構を導入する。
実験により,本手法は最先端の手法よりも優れ,ビデオ合成における優れた構造制御と創造的多様性を提供することが示された。
私たちのプロジェクトは、https://martayang.github.io/ONE-SHOT/で利用可能です。
関連論文リスト
- EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - CFSynthesis: Controllable and Free-view 3D Human Video Synthesis [57.561237409603066]
CFSynthesisは、カスタマイズ可能な属性で高品質なヒューマンビデオを生成するための新しいフレームワークである。
本手法はテクスチャ-SMPLに基づく表現を利用して,自由視点における一貫した,安定したキャラクタの出現を保証する。
複数のデータセットの結果から,複雑な人間のアニメーションにおいて,CFS合成が最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-12-15T05:57:36Z) - Hierarchical Generation of Human-Object Interactions with Diffusion
Probabilistic Models [71.64318025625833]
本稿では,対象物と相互作用する人間の3次元運動を生成するための新しいアプローチを提案する。
私たちのフレームワークはまず一連のマイルストーンを生成し、それに沿って動きを合成します。
NSM, COUCH, SAMPデータセットを用いた実験では, 従来の手法よりも品質と多様性に大きな差があることが示されている。
論文 参考訳(メタデータ) (2023-10-03T17:50:23Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。