論文の概要: Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
- arxiv url: http://arxiv.org/abs/2305.10973v2
- Date: Wed, 17 Jul 2024 10:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 23:50:47.876796
- Title: Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
- Title(参考訳): Drag Your GAN: ジェネレーティブ・イメージ・マニフォールドを用いたインタラクティブ・ポイント・ベースの操作
- Authors: Xingang Pan, Ayush Tewari, Thomas Leimkühler, Lingjie Liu, Abhimitra Meka, Christian Theobalt,
- Abstract要約: DragGANはGAN(Generative Adversarial Network)を制御する新しい方法である
DragGANを使えば、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
- 参考スコア(独自算出の注目度): 79.94300820221996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
- Abstract(参考訳): ユーザのニーズを満たすビジュアルコンテンツを合成するには、しばしば、生成されたオブジェクトのポーズ、形状、表現、レイアウトを柔軟かつ正確に制御する必要がある。
既存のアプローチは、手動でアノテートしたトレーニングデータや、しばしば柔軟性、精度、一般化に欠ける以前の3Dモデルを介して、GAN(Generative Adversarial Network)の制御性を得る。
本研究では、図1に示すように、画像の任意の点を正確に目標点に到達させるために、画像の任意の点を「ドラッグ」する、GANの制御方法について検討する。
そこで本研究では,2つの主要コンポーネントからなるDragGANを提案する。
1)ハンドルポイントを目標位置に向かって移動させる機能ベースの運動監督装置、及び
2) 識別ジェネレータ機能を利用した新たなポイントトラッキング手法により, ハンドル位置のローカライズを継続する。
DragGANを通じて、ピクセルの行き先を正確に制御して、動物、車、人間、風景などのさまざまなカテゴリのポーズ、形状、表現、レイアウトを操作することができる。
これらの操作は、GANの学習された生成画像多様体上で実行されるため、排他的内容の幻覚や、物体の剛性に一貫して従う変形形といった挑戦的なシナリオにおいても、現実的な出力を生成する傾向にある。
定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。
また, GANインバージョンによる実画像の操作についても紹介する。
関連論文リスト
- Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - DisPose: Disentangling Pose Guidance for Controllable Human Image Animation [13.366879755548636]
本稿では、高密度入力を伴わずに、より汎用的で効果的な制御信号を抽出するDisPoseを提案する。
DisPoseは、人間の画像アニメーションにおけるスパーススケルトンポーズをモーションフィールドガイダンスとキーポイント対応に分解する。
既存のモデルにシームレスに統合するために,プラグイン・アンド・プレイハイブリッド・コントロールネットを提案する。
論文 参考訳(メタデータ) (2024-12-12T15:15:59Z) - Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner [28.939227214483953]
本稿では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程におけるStyleGAN潜伏符号の変動パターンを学習する。
提案手法は,画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
論文 参考訳(メタデータ) (2024-07-26T10:45:57Z) - Continuous Piecewise-Affine Based Motion Model for Image Animation [45.55812811136834]
画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
論文 参考訳(メタデータ) (2024-01-17T11:40:05Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Unsupervised 3D Pose Transfer with Cross Consistency and Dual
Reconstruction [50.94171353583328]
3Dポーズ転送の目標は、アイデンティティ情報を保存しながら、ソースメッシュからターゲットメッシュにポーズを転送することである。
深層学習に基づく手法は、3Dポーズ転送の効率と性能を改善した。
X-DualNetは、教師なしの3Dポーズ転送を可能にするシンプルで効果的なアプローチである。
論文 参考訳(メタデータ) (2022-11-18T15:09:56Z) - LatentKeypointGAN: Controlling Images via Latent Keypoints -- Extended
Abstract [16.5436159805682]
キーポイントのセットと関連する外観埋め込みを条件とした2段階のGANであるLatntKeypointGANを紹介する。
LatentKeypointGANは、生成されたイメージの再配列に使用できる解釈可能な潜在空間を提供する。
論文 参考訳(メタデータ) (2022-05-06T19:00:07Z) - MOST-GAN: 3D Morphable StyleGAN for Disentangled Face Image Manipulation [69.35523133292389]
本稿では,顔の物理的属性を明示的にモデル化するフレームワークを提案する。
提案手法であるMOST-GANは,GANの表現力と光リアリズムを,非線形3次元形態素モデルの物理的ゆがみおよび柔軟性と統合する。
ポートレート画像の物理的特性を完全に3D制御する写真リアルな操作を実現し、照明の極端な操作、表情、およびフルプロファイルビューまでのポーズのバリエーションを可能にする。
論文 参考訳(メタデータ) (2021-11-01T15:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。