論文の概要: LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2412.15214v2
- Date: Fri, 28 Mar 2025 07:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:06:06.147456
- Title: LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis
- Title(参考訳): LeviTor:3次元軌道指向画像合成
- Authors: Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang,
- Abstract要約: 本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
- 参考スコア(独自算出の注目度): 80.2461057573121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The intuitive nature of drag-based interaction has led to its growing adoption for controlling object trajectories in image-to-video synthesis. Still, existing methods that perform dragging in the 2D space usually face ambiguity when handling out-of-plane movements. In this work, we augment the interaction with a new dimension, i.e., the depth dimension, such that users are allowed to assign a relative depth for each point on the trajectory. That way, our new interaction paradigm not only inherits the convenience from 2D dragging, but facilitates trajectory control in the 3D space, broadening the scope of creativity. We propose a pioneering method for 3D trajectory control in image-to-video synthesis by abstracting object masks into a few cluster points. These points, accompanied by the depth information and the instance information, are finally fed into a video diffusion model as the control signal. Extensive experiments validate the effectiveness of our approach, dubbed LeviTor, in precisely manipulating the object movements when producing photo-realistic videos from static images. Our code is available at: https://github.com/ant-research/LeviTor.
- Abstract(参考訳): ドラッグベースインタラクションの直感的な性質は、画像とビデオの合成におけるオブジェクトの軌跡の制御に採用されつつある。
それでも、2D空間でドラッグを行う既存の方法は、通常、外界の動きを扱う際に曖昧さに直面します。
本研究では,各軌道上の各点に対して相対的な深さを割り当てるように,新しい次元,すなわち深さ次元との相互作用を増大させる。
こうして、私たちの新しいインタラクションパラダイムは、2Dドラッグから利便性を継承するだけでなく、3D空間における軌道制御を促進し、創造性の範囲を広げます。
本稿では,オブジェクトマスクをいくつかのクラスタポイントに抽象化することで,画像間合成における3次元トラジェクトリ制御の先駆的手法を提案する。
これらの点に深度情報とインスタンス情報とが伴い、制御信号としてビデオ拡散モデルに最終的に入力される。
大規模な実験により,静的画像から写実的映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性が検証された。
私たちのコードは、https://github.com/ant-research/LeviTor.comで利用可能です。
関連論文リスト
- In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。
動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - PoseTraj: Pose-Aware Trajectory Control in Video Diffusion [17.0187150041712]
本稿では,2次元軌跡から3次元アライメントを生成できるポーズ対応ビデオドラギングモデルPoseTrajを紹介する。
提案手法は,新しい2段階のポーズアウェア事前学習フレームワークを採用し,多様な軌跡の3次元理解を改善した。
論文 参考訳(メタデータ) (2025-03-20T12:01:43Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像とビデオの正確な生成のための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
高品質なビデオコンテンツを生成し、粒度と視覚的コヒーレンスを制御する最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach [42.581066866708085]
三次元幾何学と動的認識を統合した新しい映像生成フレームワークを提案する。
これを実現するために、3Dポイントトラジェクトリで2Dビデオを拡大し、ピクセル空間に配置する。
結果の3D対応ビデオデータセットであるPointVidは、遅延拡散モデルを微調整するために使用される。
ビデオ中の物体の形状と動きを規則化し、望ましくない人工物を排除する。
論文 参考訳(メタデータ) (2025-02-05T21:49:06Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos [21.93514516437402]
本稿では,新しいビュー合成によるモノクロ映像から複数の物体の3次元動的シーンを生成するための最初のアプローチであるDreamScene4Dを紹介する。
私たちの重要な洞察は、ビデオシーンを背景とオブジェクトトラックに分解する"分解分解"アプローチです。
DAVIS, Kubric, 自撮りビデオについて, 定量的比較とユーザ嗜好調査を行った。
論文 参考訳(メタデータ) (2024-05-03T17:55:34Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。