論文の概要: DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships
- arxiv url: http://arxiv.org/abs/2410.10751v1
- Date: Mon, 14 Oct 2024 17:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 19:44:46.651829
- Title: DragEntity: Trajectory Guided Video Generation using Entity and Positional Relationships
- Title(参考訳): DragEntity: エンティティと位置関係を用いた軌道案内映像生成
- Authors: Zhang Wan, Sheng Tang, Jiawei Wei, Ruize Zhang, Juan Cao,
- Abstract要約: DragEntityは、複数のオブジェクトの動きを制御するためにエンティティ表現を利用するビデオ生成モデルである。
我々はDragEntityの有効性を検証し、ビデオ生成におけるきめ細かい制御の優れた性能を実証した。
- 参考スコア(独自算出の注目度): 16.501613834154746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, diffusion models have achieved tremendous success in the field of video generation, with controllable video generation receiving significant attention. However, existing control methods still face two limitations: Firstly, control conditions (such as depth maps, 3D Mesh) are difficult for ordinary users to obtain directly. Secondly, it's challenging to drive multiple objects through complex motions with multiple trajectories simultaneously. In this paper, we introduce DragEntity, a video generation model that utilizes entity representation for controlling the motion of multiple objects. Compared to previous methods, DragEntity offers two main advantages: 1) Our method is more user-friendly for interaction because it allows users to drag entities within the image rather than individual pixels. 2) We use entity representation to represent any object in the image, and multiple objects can maintain relative spatial relationships. Therefore, we allow multiple trajectories to control multiple objects in the image with different levels of complexity simultaneously. Our experiments validate the effectiveness of DragEntity, demonstrating its excellent performance in fine-grained control in video generation.
- Abstract(参考訳): 近年,映像生成の分野では拡散モデルが非常に成功し,制御可能な映像生成が注目されている。
しかし,既存の制御手法には2つの制限がある: まず,通常のユーザが直接入手することが困難である制御条件(深度マップ,3Dメッシュなど)。
第二に、複数の軌道を持つ複雑な動きを通して複数の物体を同時に駆動することは困難である。
本稿では,複数のオブジェクトの動作を制御するためにエンティティ表現を利用するビデオ生成モデルであるDragEntityを紹介する。
以前の方法と比較して、DragEntityには2つの大きな利点がある。
1)本手法は,個々のピクセルではなく,画像内のエンティティをドラッグできるので,インタラクションに使いやすくなっている。
2)画像内の任意のオブジェクトを表現するためにエンティティ表現を使用し,複数のオブジェクトが相対的な空間関係を維持することができる。
したがって,画像内の複数のオブジェクトを,異なるレベルの複雑さで同時に制御することが可能となる。
本実験はDragEntityの有効性を検証し,ビデオ生成における微粒化制御の優れた性能を示す。
関連論文リスト
- MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - DragAPart: Learning a Part-Level Motion Prior for Articulated Objects [67.97235923372035]
DragAPartは、ドラッグのアクションに応答する同じオブジェクトの新しいイメージを生成するメソッドである。
従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。
論文 参考訳(メタデータ) (2024-03-22T17:58:59Z) - DragAnything: Motion Control for Anything using Entity Representation [32.2017791506088]
DragAnythingは、制御可能なビデオ生成における任意のオブジェクトのモーション制御を実現する。
提案手法は従来の手法(例えばDragNUWA)を26%上回る。
論文 参考訳(メタデータ) (2024-03-12T08:57:29Z) - CAGE: Controllable Articulation GEneration [14.002289666443529]
分割拡散法を用いて, 部品形状, 接続性, 動きの相互作用を利用する。
本手法では,オブジェクトカテゴリラベルと部分接続グラフを入力として,オブジェクトの形状と運動パラメータを生成する。
実験の結果,本手法は音声オブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-15T07:04:27Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold [79.94300820221996]
DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
論文 参考訳(メタデータ) (2023-05-18T13:41:25Z) - Xp-GAN: Unsupervised Multi-object Controllable Video Generation [8.807587076209566]
ビデオ生成は比較的新しいが、機械学習では人気がある。
ビデオ生成の現在の手法は、生成ビデオ内のオブジェクトの移動方法の正確な仕様をほとんど、あるいはまったく制御しない。
そこで,本研究では,対象物の上に有界なボックスを描き,そのボックスを所望の経路で移動させることで,単一の初期フレームの任意のオブジェクトを移動させる手法を提案する。
論文 参考訳(メタデータ) (2021-11-19T14:10:50Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。