論文の概要: OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2412.09623v1
- Date: Thu, 12 Dec 2024 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:04.171309
- Title: OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation
- Title(参考訳): OmniDrag:一方向画像・映像生成のための運動制御
- Authors: Weiqi Li, Shijie Zhao, Chong Mou, Xuhan Sheng, Zhenyu Zhang, Qian Wang, Junlin Li, Li Zhang, Jian Zhang,
- Abstract要約: 我々はOmniDragを提案する。OmniDragはシーンレベルのモーションコントロールとオブジェクトレベルのモーションコントロールを両立させる。
事前学習した映像拡散モデルに基づいて,時間的注意層を付加した一方向制御モジュールを導入する。
さらに,動作制御信号を正確に抽出する球面運動推定器を開発した。
- 参考スコア(独自算出の注目度): 26.961863004481444
- License:
- Abstract: As virtual reality gains popularity, the demand for controllable creation of immersive and dynamic omnidirectional videos (ODVs) is increasing. While previous text-to-ODV generation methods achieve impressive results, they struggle with content inaccuracies and inconsistencies due to reliance solely on textual inputs. Although recent motion control techniques provide fine-grained control for video generation, directly applying these methods to ODVs often results in spatial distortion and unsatisfactory performance, especially with complex spherical motions. To tackle these challenges, we propose OmniDrag, the first approach enabling both scene- and object-level motion control for accurate, high-quality omnidirectional image-to-video generation. Building on pretrained video diffusion models, we introduce an omnidirectional control module, which is jointly fine-tuned with temporal attention layers to effectively handle complex spherical motion. In addition, we develop a novel spherical motion estimator that accurately extracts motion-control signals and allows users to perform drag-style ODV generation by simply drawing handle and target points. We also present a new dataset, named Move360, addressing the scarcity of ODV data with large scene and object motions. Experiments demonstrate the significant superiority of OmniDrag in achieving holistic scene-level and fine-grained object-level control for ODV generation. The project page is available at https://lwq20020127.github.io/OmniDrag.
- Abstract(参考訳): 仮想現実が普及するにつれて、没入型および動的全方向ビデオ(ODV)の制御可能な作成の需要が高まっている。
従来のテキスト対ODV生成手法は印象的な結果をもたらすが,テキスト入力のみに依存するため,コンテンツの不正確さや不整合に悩まされる。
近年のモーションコントロール技術はビデオ生成にきめ細かい制御を提供するが、これらの手法をODVに直接適用すると空間歪みや不満足な性能、特に複雑な球面運動が生じる。
これらの課題に対処するために,OmniDragを提案する。
事前学習した映像拡散モデルに基づいて,複雑な球面運動を効果的に処理するために,時間的注意層を併用した一方向制御モジュールを導入する。
さらに,動作制御信号を正確に抽出し,ハンドルとターゲットポイントを描画することで,ドラッグスタイルのODV生成を可能にする新しい球運動推定器を開発した。
我々はまた、大きなシーンや物体の動きを伴うODVデータの不足に対処する、Move360という新しいデータセットも提示する。
実験により、OmniDragは、ODV生成のための全体的シーンレベルおよび微粒度オブジェクトレベル制御を実現する上で、大きな優位性を示した。
プロジェクトのページはhttps://lwq20020127.github.io/OmniDragで公開されている。
関連論文リスト
- VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。
詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文 参考訳(メタデータ) (2025-01-02T18:59:54Z) - LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [80.2461057573121]
本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes [46.91656616577897]
DynamicScalerは空間的スケーラブルでパノラマ的な動的シーン合成を可能にする。
我々は,局所的な詳細性とグローバルな動き継続性を両立させるため,Global Motion Guidance機構を採用している。
本手法はパノラマシーンレベルの映像生成において,優れた内容と動作品質を実現する。
論文 参考訳(メタデータ) (2024-12-15T07:42:26Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [33.62804888664707]
条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。
また、時間的自己注意層にシームレスに統合されるように設計された効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。
実験の結果,新しい手法はTrackAdapterによって強化され,FVD,FID,MCスコアなどの重要な指標における最先端のパフォーマンスが得られた。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Tracking Everything Everywhere All at Once [111.00807055441028]
ビデオシーケンスから高密度及び長距離運動を推定するための新しいテスト時間最適化法を提案する。
我々はOmniMotionと呼ばれる完全で一貫した動作表現を提案する。
提案手法は,従来の最先端手法よりも定量的にも定性的にも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-06-08T17:59:29Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。