Fugu-MT 論文翻訳(概要): Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion

論文の概要: Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion

arxiv url: http://arxiv.org/abs/2406.05630v2
Date: Sat, 22 Jun 2024 00:24:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 00:23:38.139126
Title: Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion
Title（参考訳）: Ctrl-V:バウンディングボックス制御オブジェクトモーションによる高忠実度映像生成
Authors: Ge Ya Luo, Zhi Hao Luo, Anthony Gosselin, Alexia Jolicoeur-Martineau, Christopher Pal,
Abstract要約: 本研究では,2次元または3次元境界ボックスのピクセルレベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。また、初期フレームと終端フレームのバウンディングボックスから最大15フレームまでのバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器を作成する。
参考スコア（独自算出の注目度）: 8.068194154084967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With recent advances in video prediction, controllable video generation has been attracting more attention. Generating high fidelity videos according to simple and flexible conditioning is of particular interest. To this end, we propose a controllable video generation model using pixel level renderings of 2D or 3D bounding boxes as conditioning. In addition, we also create a bounding box predictor that, given the initial and ending frames' bounding boxes, can predict up to 15 bounding boxes per frame for all the frames in a 25-frame clip. We perform experiments across 3 well-known AV video datasets: KITTI, Virtual-KITTI 2 and BDD100k.
Abstract（参考訳）: 近年の映像予測の進歩により、制御可能な映像生成が注目されている。単純でフレキシブルな条件付けによる高忠実度ビデオの生成は特に興味深い。そこで本研究では,2次元または3次元境界ボックスの画素レベルのレンダリングを条件付けとして,制御可能な映像生成モデルを提案する。さらに,初期フレームと終端フレームのバウンディングボックスを考慮すれば,フレーム毎に最大15個のバウンディングボックスを25フレームクリップで予測できるバウンディングボックス予測器も作成した。私たちは、KITTI、Virtual-KITTI 2、BDD100kという3つの有名なAVビデオデータセットで実験を行います。

関連論文リスト

VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control [83.92729346325163]
VerseCrafterは、4D対応のビデオワールドモデルであり、カメラとオブジェクトのダイナミクスの両方を明示的で一貫性のある制御を可能にする。当社のアプローチは,静的な背景点雲を通じて世界状態をエンコードする,新しい4次元幾何制御表現を中心にしている。これらの4D制御は、事前訓練されたビデオ拡散モデルのための条件付け信号にレンダリングされ、高忠実でビュー一貫性のあるビデオを生成することができる。
論文参考訳（メタデータ） (2026-01-08T17:28:52Z)
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。 1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文参考訳（メタデータ） (2025-12-18T20:03:05Z)
DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos [24.681248200255975]
ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。 DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
論文参考訳（メタデータ） (2025-12-16T09:11:36Z)
View-Consistent Diffusion Representations for 3D-Consistent Video Generation [60.68052293389281]
現在生成されているビデオには、3Dの不整合による視覚的アーティファクトが含まれている。マルチビューで一貫した拡散表現を学習することで,ビデオモデルの3次元一貫性を改善するための新しいアプローチであるViCoDRを提案する。
論文参考訳（メタデータ） (2025-11-24T11:16:55Z)
CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving [25.156989992025625]
本研究では,空間適応型生成フレームワークCoGenを導入し,高3次元一貫性で制御可能なマルチビュービデオを実現する。粗い2次元条件を微細な3次元表現に置き換えることで,生成した映像の空間的整合性を大幅に向上させる。以上の結果から, この手法は, 自律運転のための信頼性の高い映像生成ソリューションとして, 幾何学的忠実度と視覚的リアリズムの保存に優れることが示された。
論文参考訳（メタデータ） (2025-03-28T08:27:05Z)
PoseTraj: Pose-Aware Trajectory Control in Video Diffusion [17.0187150041712]
本稿では,2次元軌跡から3次元アライメントを生成できるポーズ対応ビデオドラギングモデルPoseTrajを紹介する。提案手法は,新しい2段階のポーズアウェア事前学習フレームワークを採用し,多様な軌跡の3次元理解を改善した。
論文参考訳（メタデータ） (2025-03-20T12:01:43Z)
I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文参考訳（メタデータ） (2025-03-12T18:26:34Z)
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文参考訳（メタデータ） (2025-02-12T18:55:36Z)
VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。カメラの動き、物体の動き、照明方向を同時に制御できる。高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-11T13:11:59Z)
3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。 3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文参考訳（メタデータ） (2024-12-10T18:55:13Z)
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文参考訳（メタデータ） (2024-12-05T07:32:20Z)
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文参考訳（メタデータ） (2024-10-17T17:52:57Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。 DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文参考訳（メタデータ） (2024-09-09T09:43:17Z)
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。フレームレートは16fps、解像度は768×1360ピクセル。
論文参考訳（メタデータ） (2024-08-12T11:47:11Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
Boximator: Generating Rich and Controllable Motions for Video Synthesis [12.891562157919237]
Boximatorは、きめ細かいモーションコントロールのための新しいアプローチである。 Boximatorは既存のビデオ拡散モデルのプラグインとして機能する。最先端のビデオ品質(FVD)スコアを達成し、2つのベースモデルを改善し、ボックス制約を組み込んだ後にさらに強化する。
論文参考訳（メタデータ） (2024-02-02T16:59:48Z)
DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文参考訳（メタデータ） (2023-08-16T01:43:41Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文参考訳（メタデータ） (2022-12-14T18:54:13Z)
Vid-ODE: Continuous-Time Video Generation with Neural Ordinary Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。 Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文参考訳（メタデータ） (2020-10-16T06:50:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。