論文の概要: Motion Transformer for Unsupervised Image Animation
- arxiv url: http://arxiv.org/abs/2209.14024v1
- Date: Wed, 28 Sep 2022 12:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:23:36.409375
- Title: Motion Transformer for Unsupervised Image Animation
- Title(参考訳): 無教師画像アニメーション用モーショントランスフォーマ
- Authors: Jiale Tao, Biao Wang, Tiezheng Ge, Yuning Jiang, Wen Li, and Lixin
Duan
- Abstract要約: 画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
- 参考スコア(独自算出の注目度): 37.35527776043379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image animation aims to animate a source image by using motion learned from a
driving video. Current state-of-the-art methods typically use convolutional
neural networks (CNNs) to predict motion information, such as motion keypoints
and corresponding local transformations. However, these CNN based methods do
not explicitly model the interactions between motions; as a result, the
important underlying motion relationship may be neglected, which can
potentially lead to noticeable artifacts being produced in the generated
animation video. To this end, we propose a new method, the motion transformer,
which is the first attempt to build a motion estimator based on a vision
transformer. More specifically, we introduce two types of tokens in our
proposed method: i) image tokens formed from patch features and corresponding
position encoding; and ii) motion tokens encoded with motion information. Both
types of tokens are sent into vision transformers to promote underlying
interactions between them through multi-head self attention blocks. By adopting
this process, the motion information can be better learned to boost the model
performance. The final embedded motion tokens are then used to predict the
corresponding motion keypoints and local transformations. Extensive experiments
on benchmark datasets show that our proposed method achieves promising results
to the state-of-the-art baselines. Our source code will be public available.
- Abstract(参考訳): 画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法では、一般的に畳み込みニューラルネットワーク(CNN)を使用して、動きキーポイントや対応する局所変換などの動き情報を予測する。
しかし、これらのcnnベースの手法は、動き間の相互作用を明示的にモデル化していないため、重要な動き関係が無視される可能性があり、それによって生成されたアニメーションビデオで目に見えるアーティファクトが生成される可能性がある。
そこで本研究では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
具体的には,提案手法に2種類のトークンを導入する。
一 パッチの特徴及び対応する位置符号化から形成される画像トークン
二 動き情報をエンコードした動きトークン
どちらの種類のトークンも視覚変換器に送られ、マルチヘッドのセルフアテンションブロックを通じてそれらの相互作用を促進する。
このプロセスを採用することで、モデルの性能を高めるために、モーション情報をよりよく学習することができる。
最終的な埋め込みモーショントークンは、対応する動きキーポイントと局所変換を予測するために使用される。
ベンチマークデータセットの広範な実験により,提案手法が最先端のベースラインに有望な結果をもたらすことが示された。
ソースコードは公開される予定だ。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Continuous Piecewise-Affine Based Motion Model for Image Animation [45.55812811136834]
画像アニメーションは、動画の駆動によって静的なイメージを生き返らせることを目的としている。
最近の教師なし手法では、キーポイントに基づくアフィンおよび薄板のスプライン変換を用いて、駆動フレーム内の動きをソース画像に転送する。
本研究では,高表現率微分空間における原画像から駆動フレームへの動きをモデル化する。
論文 参考訳(メタデータ) (2024-01-17T11:40:05Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Sparse to Dense Motion Transfer for Face Image Animation [34.16015389505612]
元の顔画像とスパースな顔のランドマークのシーケンスが与えられた場合、私たちのゴールはランドマークの動きを模倣した顔のビデオを作成することです。
本研究では,スパースランドマークから顔画像への移動を効果的かつ効果的に行う方法を開発した。
論文 参考訳(メタデータ) (2021-09-01T16:23:57Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。
流れ水や吹く煙など,連続流体運動の場面を対象とする。
本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文 参考訳(メタデータ) (2020-11-30T18:59:06Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。