論文の概要: ObjCtrl-2.5D: Training-free Object Control with Camera Poses
- arxiv url: http://arxiv.org/abs/2412.07721v1
- Date: Tue, 10 Dec 2024 18:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:50.043236
- Title: ObjCtrl-2.5D: Training-free Object Control with Camera Poses
- Title(参考訳): ObjCtrl-2.5D:カメラケースを用いた訓練不要物体制御
- Authors: Zhouxia Wang, Yushi Lan, Shangchen Zhou, Chen Change Loy,
- Abstract要約: 本研究の目的は、画像間(I2V)生成において、より正確で多目的なオブジェクト制御を実現することである。
深度情報を持つ2次元軌道から拡張した3次元軌道を用いた学習不要物体制御手法であるCtrl-2.5Dを制御信号として提案する。
実験により、Ctrl-2.5Dはトレーニング不要の手法と比較して、オブジェクト制御の精度を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 61.23620424598908
- License:
- Abstract: This study aims to achieve more precise and versatile object control in image-to-video (I2V) generation. Current methods typically represent the spatial movement of target objects with 2D trajectories, which often fail to capture user intention and frequently produce unnatural results. To enhance control, we present ObjCtrl-2.5D, a training-free object control approach that uses a 3D trajectory, extended from a 2D trajectory with depth information, as a control signal. By modeling object movement as camera movement, ObjCtrl-2.5D represents the 3D trajectory as a sequence of camera poses, enabling object motion control using an existing camera motion control I2V generation model (CMC-I2V) without training. To adapt the CMC-I2V model originally designed for global motion control to handle local object motion, we introduce a module to isolate the target object from the background, enabling independent local control. In addition, we devise an effective way to achieve more accurate object control by sharing low-frequency warped latent within the object's region across frames. Extensive experiments demonstrate that ObjCtrl-2.5D significantly improves object control accuracy compared to training-free methods and offers more diverse control capabilities than training-based approaches using 2D trajectories, enabling complex effects like object rotation. Code and results are available at https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
- Abstract(参考訳): 本研究の目的は、画像間(I2V)生成において、より正確で多目的なオブジェクト制御を実現することである。
現在の手法は、通常、2次元軌跡を持つ対象物体の空間的移動を表すが、これはしばしばユーザの意図を捉えず、しばしば不自然な結果を生み出す。
制御性を高めるため,深度情報を持つ2次元軌道から拡張した3次元軌道を用いた学習自由物体制御手法であるObjCtrl-2.5Dを制御信号として提案する。
物体の動きをカメラの動きとしてモデル化することにより、ObjCtrl-2.5Dは3次元軌跡を一連のカメラポーズとして表現し、既存のカメラモーション制御I2V生成モデル(CMC-I2V)を用いて物体の動きを制御することができる。
そこで本研究では,CMC-I2Vモデルを用いて,対象物体を背景から分離するモジュールを導入する。
さらに, フレーム間における低周波整流潜水器の共用により, より正確な物体制御を実現するための効果的な手法を考案した。
大規模な実験により、ObjCtrl-2.5Dはトレーニング不要の手法と比較してオブジェクト制御の精度を著しく改善し、2Dトラジェクトリを用いたトレーニングベースアプローチよりも多様な制御能力を提供し、オブジェクトの回転のような複雑な効果を可能にすることが示されている。
コードと結果はhttps://wzhouxiff.github.io/projects/ObjCtrl-2.5D/で公開されている。
関連論文リスト
- I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。
被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-11-10T16:59:39Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。