論文の概要: Continuous Piecewise-Affine Based Motion Model for Image Animation
- arxiv url: http://arxiv.org/abs/2401.09146v1
- Date: Wed, 17 Jan 2024 11:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:00:35.101128
- Title: Continuous Piecewise-Affine Based Motion Model for Image Animation
- Title(参考訳): 画像アニメーションのための連続的ピースワイズアフィン動作モデル
- Authors: Hexiang Wang, Fengqi Liu, Qianyu Zhou, Ran Yi, Xin Tan, Lizhuang Ma
- Abstract要約: 画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
- 参考スコア(独自算出の注目度): 45.55812811136834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image animation aims to bring static images to life according to driving
videos and create engaging visual content that can be used for various purposes
such as animation, entertainment, and education. Recent unsupervised methods
utilize affine and thin-plate spline transformations based on keypoints to
transfer the motion in driving frames to the source image. However, limited by
the expressive power of the transformations used, these methods always produce
poor results when the gap between the motion in the driving frame and the
source image is large. To address this issue, we propose to model motion from
the source image to the driving frame in highly-expressive diffeomorphism
spaces. Firstly, we introduce Continuous Piecewise-Affine based (CPAB)
transformation to model the motion and present a well-designed inference
algorithm to generate CPAB transformation from control keypoints. Secondly, we
propose a SAM-guided keypoint semantic loss to further constrain the keypoint
extraction process and improve the semantic consistency between the
corresponding keypoints on the source and driving images. Finally, we design a
structure alignment loss to align the structure-related features extracted from
driving and generated images, thus helping the generator generate results that
are more consistent with the driving action. Extensive experiments on four
datasets demonstrate the effectiveness of our method against state-of-the-art
competitors quantitatively and qualitatively. Code will be publicly available
at: https://github.com/DevilPG/AAAI2024-CPABMM.
- Abstract(参考訳): 画像アニメーションは、動画の運転に応じて静止画を生かし、アニメーション、エンターテイメント、教育などの様々な目的に使用できる魅力的な視覚コンテンツを作成することを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
しかし、使用する変換の表現力によって制限されたこれらの手法は、駆動フレーム内の運動とソース画像とのギャップが大きい場合、常に悪い結果をもたらす。
この問題に対処するために,高表現型微分同相空間において,音源画像から駆動フレームへの移動をモデル化する。
まず,動きをモデル化するためにcpab変換を連続的に導入し,制御キーポイントからcpab変換を生成するためのよく設計された推論アルゴリズムを提案する。
次に,鍵点抽出プロセスの制約をさらに緩和し,ソース上の対応するキー点と駆動画像とのセマンティック一貫性を向上させるために,SAM誘導鍵点意味損失を提案する。
最後に,運転および生成画像から抽出した構造関連特徴を整合させる構造アライメント損失を設計すれば,運転動作に一貫性のある結果を生成することができる。
4つのデータセットに対する大規模な実験は、最先端の競合相手に対する手法の有効性を定量的に定性的に実証している。
コードは、https://github.com/DevilPG/AAAI2024-CPABMMで公開される。
関連論文リスト
- Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - Thin-Plate Spline-based Interpolation for Animation Line Inbetweening [54.69811179222127]
チャンファー距離(CD: Chamfer Distance)は、一般に間欠的な性能を評価するために用いられる。
薄板スプライン変換を応用したアニメーションラインインテタイニングの簡易かつ効果的な手法を提案する。
提案手法は, 流動性を高めた高品質な結果を提供することにより, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2024-08-17T08:05:31Z) - Auto DragGAN: Editing the Generative Image Manifold in an Autoregressive Manner [28.939227214483953]
本稿では,レグレッションに基づくネットワークを用いて,画像のドラッグング過程におけるStyleGAN潜伏符号の変動パターンを学習する。
提案手法は,画素レベルの粒度でのSOTA推論速度と画像編集性能を実現する。
論文 参考訳(メタデータ) (2024-07-26T10:45:57Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - A Constrained Deformable Convolutional Network for Efficient Single
Image Dynamic Scene Blind Deblurring with Spatially-Variant Motion Blur
Kernels Estimation [12.744989551644744]
本稿では,効率的なシングルイメージダイナミックシーンブラインドブルのための制約付き変形可能な畳み込みネットワーク(CDCN)を提案する。
CDCNは、高精度な空間変動運動ぼかしカーネル推定と高品質な画像復元を同時に達成する。
論文 参考訳(メタデータ) (2022-08-23T03:28:21Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Thin-Plate Spline Motion Model for Image Animation [9.591298403129532]
イメージアニメーションは、ドライビングビデオに従って、ソースイメージ内の静的オブジェクトに生命をもたらす。
近年の研究では、事前知識を使わずに、教師なし手法による任意の物体の移動を試みている。
ソース内のオブジェクトと駆動イメージの間に大きなポーズギャップがある場合、現在の教師なしメソッドにとって、これは依然として重要な課題である。
論文 参考訳(メタデータ) (2022-03-27T18:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。