Fugu-MT 論文翻訳(概要): DragAnything: Motion Control for Anything using Entity Representation

論文の概要: DragAnything: Motion Control for Anything using Entity Representation

arxiv url: http://arxiv.org/abs/2403.07420v2
Date: Wed, 13 Mar 2024 03:22:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 10:59:23.734957
Title: DragAnything: Motion Control for Anything using Entity Representation
Title（参考訳）: DragAnything:エンティティ表現を用いた任意の物の動作制御
Authors: Weijia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Di Zhang
Abstract要約: DragAnythingは、制御可能なビデオ生成における任意のオブジェクトのモーション制御を実現する。提案手法は従来の手法(例えばDragNUWA)を26%上回る。
参考スコア（独自算出の注目度）: 33.27323484932806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DragAnything, which utilizes a entity representation to achieve motion control for any object in controllable video generation. Comparison to existing motion control methods, DragAnything offers several advantages. Firstly, trajectory-based is more userfriendly for interaction, when acquiring other guidance signals (e.g., masks, depth maps) is labor-intensive. Users only need to draw a line (trajectory) during interaction. Secondly, our entity representation serves as an open-domain embedding capable of representing any object, enabling the control of motion for diverse entities, including background. Lastly, our entity representation allows simultaneous and distinct motion control for multiple objects. Extensive experiments demonstrate that our DragAnything achieves state-of-the-art performance for FVD, FID, and User Study, particularly in terms of object motion control, where our method surpasses the previous methods (e.g., DragNUWA) by 26% in human voting.
Abstract（参考訳）: DragAnythingを導入し、エンティティ表現を利用して、制御可能なビデオ生成における任意のオブジェクトに対するモーション制御を実現する。既存のモーションコントロール手法と比較して、DragAnythingにはいくつかの利点がある。第一に、他の誘導信号(マスク、深度マップなど)を取得する場合、トラジェクトリベースの方がインタラクションに親しみやすい。ユーザはインタラクション中に行(軌道)を描画するだけです。第二に、私たちのエンティティ表現は、あらゆるオブジェクトを表現できるオープンドメイン埋め込みとして機能し、背景を含む多様なエンティティの動作の制御を可能にします。最後に、エンティティ表現は複数のオブジェクトに対して同時かつ異なる動作制御を可能にする。我々のDragAnythingは、FVD, FID, User Studyの最先端性能、特にオブジェクトの動き制御において、従来の手法(例えばDragNUWA)を26%上回る精度で達成している。

関連論文リスト

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance [107.25252623824296]
Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。 Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
論文参考訳（メタデータ） (2025-12-09T16:13:55Z)
ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文参考訳（メタデータ） (2025-05-28T23:49:18Z)
MaskedManipulator: Versatile Whole-Body Manipulation [38.02818493367002]
本研究では,大規模な人体モーションキャプチャーデータに基づいて学習したトラッキングコントローラから生成制御ポリシーであるMaskedManipulatorを紹介する。この2段階の学習プロセスにより、システムは複雑なインタラクション動作を実行でき、キャラクタとオブジェクトの両方の動作を直感的に制御できる。
論文参考訳（メタデータ） (2025-05-25T10:46:14Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文参考訳（メタデータ） (2025-02-27T08:21:03Z)
Perception-as-Control: Fine-grained Controllable Image Animation with 3D-aware Motion Representation [21.87745390965703]
本稿では3D対応モーション表現を導入し,詳細な協調動作制御を実現するために,Perception-as-Controlと呼ばれる画像アニメーションフレームワークを提案する。具体的には、参照画像から3D対応の動作表現を構築し、解釈されたユーザ命令に基づいて操作し、異なる視点から知覚する。本フレームワークは,動作制御信号として知覚結果を活用することで,様々な動作関連ビデオ合成タスクを統一的かつ柔軟な方法でサポートできるようにする。
論文参考訳（メタデータ） (2025-01-09T07:23:48Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships [16.501613834154746]
DragEntityは、複数のオブジェクトの動きを制御するためにエンティティ表現を利用するビデオ生成モデルである。我々はDragEntityの有効性を検証し、ビデオ生成におけるきめ細かい制御の優れた性能を実証した。
論文参考訳（メタデータ） (2024-10-14T17:24:35Z)
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文参考訳（メタデータ） (2024-05-30T16:22:22Z)
DragAPart: Learning a Part-Level Motion Prior for Articulated Objects [67.97235923372035]
DragAPartは、ドラッグのアクションに応答する同じオブジェクトの新しいイメージを生成するメソッドである。従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。
論文参考訳（メタデータ） (2024-03-22T17:58:59Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文参考訳（メタデータ） (2023-12-06T17:49:57Z)
Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文参考訳（メタデータ） (2023-10-06T20:48:43Z)
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文参考訳（メタデータ） (2023-05-18T13:41:25Z)
Unsupervised Multi-object Segmentation by Predicting Probable Motion Patterns [92.80981308407098]
手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。シミュレーションおよび実世界のベンチマークで、最先端の教師なしオブジェクトセグメンテーション性能を示す。
論文参考訳（メタデータ） (2022-10-21T17:57:05Z)
Treating Motion as Option to Reduce Motion Dependency in Unsupervised Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文参考訳（メタデータ） (2022-09-04T18:05:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。