論文の概要: DragAnything: Motion Control for Anything using Entity Representation
- arxiv url: http://arxiv.org/abs/2403.07420v3
- Date: Fri, 15 Mar 2024 05:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 10:58:56.890966
- Title: DragAnything: Motion Control for Anything using Entity Representation
- Title(参考訳): DragAnything:エンティティ表現を用いた任意の物の動作制御
- Authors: Weijia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang,
- Abstract要約: DragAnythingは、制御可能なビデオ生成における任意のオブジェクトのモーション制御を実現する。
提案手法は従来の手法(例えばDragNUWA)を26%上回る。
- 参考スコア(独自算出の注目度): 32.2017791506088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.
- Abstract(参考訳): DragAnythingを導入し、エンティティ表現を利用して、制御可能なビデオ生成における任意のオブジェクトに対するモーション制御を実現する。
既存のモーションコントロール手法と比較して、DragAnythingにはいくつかの利点がある。
第一に、他の誘導信号(マスク、深度マップなど)を取得する場合、トラジェクトリベースの方がインタラクションに親しみやすい。
ユーザはインタラクション中に行(軌道)を描画するだけです。
第二に、私たちのエンティティ表現は、あらゆるオブジェクトを表現できるオープンドメイン埋め込みとして機能し、背景を含む多様なエンティティの動作の制御を可能にします。
最後に、エンティティ表現は複数のオブジェクトに対して同時かつ異なる動作制御を可能にする。
我々のDragAnythingは、FVD, FID, User Studyの最先端性能、特にオブジェクトの動き制御において、従来の手法(例えばDragNUWA)を26%上回る精度で達成している。
関連論文リスト
- DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships [16.501613834154746]
DragEntityは、複数のオブジェクトの動きを制御するためにエンティティ表現を利用するビデオ生成モデルである。
我々はDragEntityの有効性を検証し、ビデオ生成におけるきめ細かい制御の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-10-14T17:24:35Z) - MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - DragAPart: Learning a Part-Level Motion Prior for Articulated Objects [67.97235923372035]
DragAPartは、ドラッグのアクションに応答する同じオブジェクトの新しいイメージを生成するメソッドである。
従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。
論文 参考訳(メタデータ) (2024-03-22T17:58:59Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - Unsupervised Multi-object Segmentation by Predicting Probable Motion
Patterns [92.80981308407098]
手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。
この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。
シミュレーションおよび実世界のベンチマークで、最先端の教師なしオブジェクトセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2022-10-21T17:57:05Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。