論文の概要: Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
- arxiv url: http://arxiv.org/abs/2603.15614v1
- Date: Mon, 16 Mar 2026 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.725388
- Title: Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
- Title(参考訳): Tri-Prompting:シーン,主題,動作に対する統一制御によるビデオ拡散
- Authors: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo,
- Abstract要約: Tri-Promptingは、シーン構成、マルチビューの主題整合性、モーションコントロールを統合する統合フレームワークである。
その結果,Tri-Promptingは多視点被写体識別,3次元整合性,運動精度においてPhantomやDaSなどの特殊ベースラインよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 69.64308172688368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.
- Abstract(参考訳): 最近のビデオ拡散モデルは、視覚的品質において顕著な進歩を遂げているが、正確なきめ細かい制御は、コンテンツ作成の実用的なカスタマイズ性を制限する重要なボトルネックである。
AIビデオクリエーターにとって、3つのコントロールは重要だ。
(i)シーン構成
(二)多視点一貫した主題のカスタマイズ、及び
三 カメラ目的又は物動調整
既存の手法は、通常、これらの次元を分離して扱うが、任意のポーズ変化の下で、多視点の主題合成とアイデンティティ保存を限定的にサポートする。
この統一アーキテクチャの欠如は、多目的で共同制御可能なビデオのサポートを困難にしている。
本稿では,シーン構成,マルチビュー対象整合性,モーションコントロールを統合した統合フレームワークTri-Promptingを紹介する。
提案手法は,背景シーンの3次元トラッキングポイントと前景被験者のRGBのダウンサンプリングによる2条件動作モジュールを利用する。
さらに,制御可能性と視覚リアリズムのバランスを確保するために,推論制御ネットのスケールスケジュールを提案する。
Tri-Promptingは、任意のシーンに3D対応の被写体を挿入したり、画像内の既存の被写体の操作など、新しいワークフローをサポートする。
実験結果から,Tri-Prompting は多視点被写体識別,3次元整合性,運動精度においてPhantom や DaS などの特殊ベースラインよりも有意に優れていた。
関連論文リスト
- MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model [83.12400850233034]
人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、デジタル人間の創造のフロンティアである。
マルチビュー参照条件とビデオ基盤モデルをブリッジする2段階のHOIビデオ再現フレームワークであるMVHOIを提案する。
本フレームワークは,複雑なオブジェクト操作による長期HOIビデオの生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2026-03-16T00:43:38Z) - OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation [53.33087515226418]
ビデオ由来の大規模コーパスであるOpenSubjectを導入し,2.5Mサンプルと4.35Mイメージを被験者駆動で生成・操作する。
データセットは、4段階のパイプラインで構築されている。
さらに、主観的生成と操作を対象とするベンチマークを導入し、その上で、VLM判定器によるアイデンティティの忠実度、即効性、操作整合性、背景整合性を評価する。
論文 参考訳(メタデータ) (2025-12-09T06:49:33Z) - Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Video Generation [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案するSynFMCデータセットには、さまざまなオブジェクトと環境カテゴリが含まれている。
特定のルールに従って様々な動きパターンをカバーし、一般的な、複雑な現実世界のシナリオをシミュレートする。
完全な6Dポーズ情報は、ビデオ内のオブジェクトとカメラからの動き効果を遠ざけることを学習するモデルを容易にする。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。