論文の概要: DragAnything: Motion Control for Anything using Entity Representation
- arxiv url: http://arxiv.org/abs/2403.07420v1
- Date: Tue, 12 Mar 2024 08:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:23:45.269642
- Title: DragAnything: Motion Control for Anything using Entity Representation
- Title(参考訳): draganything: エンティティ表現を用いた任意のモーションコントロール
- Authors: Wejia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao
Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
- Abstract要約: DragAnythingは、制御可能なビデオ生成における任意のオブジェクトのモーション制御を実現する。
提案手法は従来の手法(例えばDragNUWA)を26%上回る。
- 参考スコア(独自算出の注目度): 30.52577764839694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DragAnything, which utilizes a entity representation to achieve
motion control for any object in controllable video generation. Comparison to
existing motion control methods, DragAnything offers several advantages.
Firstly, trajectory-based is more userfriendly for interaction, when acquiring
other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only
need to draw a line (trajectory) during interaction. Secondly, our entity
representation serves as an open-domain embedding capable of representing any
object, enabling the control of motion for diverse entities, including
background. Lastly, our entity representation allows simultaneous and distinct
motion control for multiple objects. Extensive experiments demonstrate that our
DragAnything achieves state-of-the-art performance for FVD, FID, and User
Study, particularly in terms of object motion control, where our method
surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.
- Abstract(参考訳): DragAnythingを導入し、エンティティ表現を利用して、制御可能なビデオ生成における任意のオブジェクトに対するモーション制御を実現する。
既存のモーションコントロール方法と比較して、draganythingはいくつかの利点を提供している。
第一に、軌道ベースは、他の誘導信号(例えばマスクや深度マップ)を取得するとき、よりユーザーフレンドリーである。
ユーザーは対話中に線(軌跡)を描くだけでよい。
第二に、私たちのエンティティ表現は、あらゆるオブジェクトを表現できるオープンドメインの埋め込みとして機能し、バックグラウンドを含む多様なエンティティの動きの制御を可能にします。
最後に、エンティティ表現は複数のオブジェクトに対して同時かつ異なる動作制御を可能にする。
広範な実験により,fvd,fid,ユーザスタディにおいて,従来手法 (例えばdragonuwa) を26%の人的投票で超越した動作制御において,fvd,fid,ユーザスタディの最先端性能を実現することが実証された。
関連論文リスト
- DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships [16.501613834154746]
DragEntityは、複数のオブジェクトの動きを制御するためにエンティティ表現を利用するビデオ生成モデルである。
我々はDragEntityの有効性を検証し、ビデオ生成におけるきめ細かい制御の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-10-14T17:24:35Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - DragAPart: Learning a Part-Level Motion Prior for Articulated Objects [67.97235923372035]
DragAPartは、ドラッグのアクションに応答する同じオブジェクトの新しいイメージを生成するメソッドである。
従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。
論文 参考訳(メタデータ) (2024-03-22T17:58:59Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - Unsupervised Multi-object Segmentation by Predicting Probable Motion
Patterns [92.80981308407098]
手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。
この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。
シミュレーションおよび実世界のベンチマークで、最先端の教師なしオブジェクトセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2022-10-21T17:57:05Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。