論文の概要: Pulp Motion: Framing-aware multimodal camera and human motion generation
- arxiv url: http://arxiv.org/abs/2510.05097v1
- Date: Mon, 06 Oct 2025 17:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.05023
- Title: Pulp Motion: Framing-aware multimodal camera and human motion generation
- Title(参考訳): パルプモーション:フレイミングを意識したマルチモーダルカメラと人間のモーション生成
- Authors: Robin Courant, Xi Wang, David Loiseaux, Marc Christie, Vicky Kalogeiton,
- Abstract要約: 私たちは、このタスクを、一貫した画面上のフレーミングを維持することを目的とした、テキスト条件のジョイントジェネレーションとして、最初にキャストしました。
補助モダリティを介し,マルチモーダルコヒーレンスを強制する,シンプルなモデルに依存しないフレームワークを提案する。
本実験は,オンフレームコヒーレントなヒトカメラの動作生成における本手法の汎用性と有効性を示す。
- 参考スコア(独自算出の注目度): 23.011172300168642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Treating human motion and camera trajectory generation separately overlooks a core principle of cinematography: the tight interplay between actor performance and camera work in the screen space. In this paper, we are the first to cast this task as a text-conditioned joint generation, aiming to maintain consistent on-screen framing while producing two heterogeneous, yet intrinsically linked, modalities: human motion and camera trajectories. We propose a simple, model-agnostic framework that enforces multimodal coherence via an auxiliary modality: the on-screen framing induced by projecting human joints onto the camera. This on-screen framing provides a natural and effective bridge between modalities, promoting consistency and leading to more precise joint distribution. We first design a joint autoencoder that learns a shared latent space, together with a lightweight linear transform from the human and camera latents to a framing latent. We then introduce auxiliary sampling, which exploits this linear transform to steer generation toward a coherent framing modality. To support this task, we also introduce the PulpMotion dataset, a human-motion and camera-trajectory dataset with rich captions, and high-quality human motions. Extensive experiments across DiT- and MAR-based architectures show the generality and effectiveness of our method in generating on-frame coherent human-camera motions, while also achieving gains on textual alignment for both modalities. Our qualitative results yield more cinematographically meaningful framings setting the new state of the art for this task. Code, models and data are available in our \href{https://www.lix.polytechnique.fr/vista/projects/2025_pulpmotion_courant/}{project page}.
- Abstract(参考訳): 人間の動きとカメラの軌跡生成を別々に扱うことは、映画撮影のコア原則である、スクリーン空間におけるアクターのパフォーマンスとカメラワークの密接な相互作用を見落としている。
本稿では,このタスクをテキスト・コンディショニング・ジョイント・ジェネレーションとして,不均一だが本質的な2つのモダリティ(人間の動きとカメラの軌跡)を生成しながら,一貫した画面フレーミングを維持することを目的とする。
本稿では,人間の関節をカメラに投射することによって引き起こされる画面上のフレーミングという,補助的なモダリティを通じて多モードコヒーレンスを強制する,シンプルなモデルに依存しないフレームワークを提案する。
このスクリーン上のフレーミングは、モダリティ間の自然な効果的なブリッジを提供し、一貫性を促進し、より正確な関節分布をもたらす。
まず、共用ラテント空間を学習するジョイントオートエンコーダを、人間とカメラのラテントからフレーミングラテントへの軽量な線形変換とともに設計する。
次に、この線形変換を利用して、コヒーレントフレーミングモードに対するステア生成を行う補助サンプリングを導入する。
このタスクをサポートするために、PulpMotionデータセット、リッチキャプションを備えた人動・カメラ軌道データセット、高品質な人間の動きについても紹介する。
DiTおよびMARアーキテクチャを対象とする大規模な実験により,本手法のフレーム上でのコヒーレントな人間のカメラ動作生成における汎用性と有効性を示すとともに,両モードのテキストアライメントの獲得も達成している。
我々の質的な結果は、このタスクの新たな最先端を、より撮影的に意味のあるフレーミングに繋がる。
コード、モデル、データは、我々の \href{https://www.lix.polytechnique.fr/vista/projects/2025_pulpmotion_courant/}{project page} で利用可能である。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation [7.900728371180723]
TokenMotionは、カメラモーションのきめ細かい制御を可能にする、最初のDiTベースのビデオ拡散フレームワークである。
本稿では,人間を意識した動的マスクをブリッジした分離・融合戦略を用いた統一モデリングフレームワークを提案する。
私たちの研究は、コントロール可能なビデオ生成の大幅な進歩を表しており、特にクリエイティブなプロダクションアプリケーションに関係しています。
論文 参考訳(メタデータ) (2025-04-11T00:41:25Z) - GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文 参考訳(メタデータ) (2025-04-09T17:56:01Z) - HumanMM: Global Human Motion Recovery from Multi-shot Videos [24.273414172013933]
本稿では,複数のショット遷移を伴って,世界における長時間の人間の動きを再現する新しいフレームワークを提案する。
このような長時間の動作は、モーション生成やモーション理解といった応用に非常に有用である。
論文 参考訳(メタデータ) (2025-03-10T17:57:03Z) - Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video [3.2195139886901813]
マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。
具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。
この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
論文 参考訳(メタデータ) (2025-02-15T00:35:34Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。