論文の概要: Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion
- arxiv url: http://arxiv.org/abs/2406.05630v2
- Date: Sat, 22 Jun 2024 00:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 00:23:38.139126
- Title: Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion
- Title(参考訳): Ctrl-V:バウンディングボックス制御オブジェクトモーションによる高忠実度映像生成
- Authors: Ge Ya Luo, Zhi Hao Luo, Anthony Gosselin, Alexia Jolicoeur-Martineau, Christopher Pal,
- Abstract要約: 本研究では,2次元または3次元境界ボックスのピクセルレベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。
また、初期フレームと終端フレームのバウンディングボックスから最大15フレームまでのバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器を作成する。
- 参考スコア(独自算出の注目度): 8.068194154084967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advances in video prediction, controllable video generation has been attracting more attention. Generating high fidelity videos according to simple and flexible conditioning is of particular interest. To this end, we propose a controllable video generation model using pixel level renderings of 2D or 3D bounding boxes as conditioning. In addition, we also create a bounding box predictor that, given the initial and ending frames' bounding boxes, can predict up to 15 bounding boxes per frame for all the frames in a 25-frame clip. We perform experiments across 3 well-known AV video datasets: KITTI, Virtual-KITTI 2 and BDD100k.
- Abstract(参考訳): 近年の映像予測の進歩により、制御可能な映像生成が注目されている。
単純でフレキシブルな条件付けによる高忠実度ビデオの生成は特に興味深い。
そこで本研究では,2次元または3次元境界ボックスの画素レベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。
さらに,初期フレームと終端フレームのバウンディングボックスを考慮すれば,フレーム毎に最大15個のバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器も作成した。
私たちは、KITTI、Virtual-KITTI 2、BDD100kという3つの有名なAVビデオデータセットで実験を行います。
関連論文リスト
- CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像から映像までを正確に生成するための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
ベンチマークデータセットの実験では、高品質のビデオコンテンツの生成におけるVidCRAFT3の有効性が示されている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。
制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文 参考訳(メタデータ) (2024-12-05T07:32:20Z) - DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。
具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。
我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文 参考訳(メタデータ) (2024-10-17T17:52:57Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation [10.5019872575418]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。