論文の概要: Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion
- arxiv url: http://arxiv.org/abs/2406.05630v1
- Date: Sun, 9 Jun 2024 03:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:46:43.012357
- Title: Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion
- Title(参考訳): Ctrl-V:バウンディングボックス制御オブジェクトモーションによる高忠実度映像生成
- Authors: Ge Ya Luo, Zhi Hao Luo, Anthony Gosselin, Alexia Jolicoeur-Martineau, Christopher Pal,
- Abstract要約: 本研究では,2次元または3次元境界ボックスのピクセルレベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。
また、初期フレームと終端フレームのバウンディングボックスから最大15フレームまでのバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器を作成する。
- 参考スコア(独自算出の注目度): 8.068194154084967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent advances in video prediction, controllable video generation has been attracting more attention. Generating high fidelity videos according to simple and flexible conditioning is of particular interest. To this end, we propose a controllable video generation model using pixel level renderings of 2D or 3D bounding boxes as conditioning. In addition, we also create a bounding box predictor that, given the initial and ending frames' bounding boxes, can predict up to 15 bounding boxes per frame for all the frames in a 25-frame clip. We perform experiments across 3 well-known AV video datasets: KITTI, Virtual-KITTI 2 and BDD100k.
- Abstract(参考訳): 近年の映像予測の進歩により、制御可能な映像生成が注目されている。
単純でフレキシブルな条件付けによる高忠実度ビデオの生成は特に興味深い。
そこで本研究では,2次元または3次元境界ボックスの画素レベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。
さらに,初期フレームと終端フレームのバウンディングボックスを考慮すれば,フレーム毎に最大15個のバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器も作成した。
私たちは、KITTI、Virtual-KITTI 2、BDD100kという3つの有名なAVビデオデータセットで実験を行います。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Boximator: Generating Rich and Controllable Motions for Video Synthesis [12.891562157919237]
Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。
Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。
最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
論文 参考訳(メタデータ) (2024-02-02T16:59:48Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。