論文の概要: Cross-identity Video Motion Retargeting with Joint Transformation and
Synthesis
- arxiv url: http://arxiv.org/abs/2210.01559v1
- Date: Sun, 2 Oct 2022 03:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:33:55.596994
- Title: Cross-identity Video Motion Retargeting with Joint Transformation and
Synthesis
- Title(参考訳): 連成変換と合成によるクロスアイデンティティビデオモーションレターゲティング
- Authors: Haomiao Ni, Yihao Liu, Sharon X. Huang, Yuan Xue
- Abstract要約: ビデオモーションアニメーションのための二分岐変換合成ネットワーク(TS-Net)を提案する。
TS-Netはワープベースのトランスフォーメーションブランチとワープフリーブランチで構成される。
TS-Netは、複数の最先端モデルやシングルブランチモデルよりも、ビデオモーションのパフォーマンスが向上していることを示す。
- 参考スコア(独自算出の注目度): 10.892379742767115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel dual-branch Transformation-Synthesis
network (TS-Net), for video motion retargeting. Given one subject video and one
driving video, TS-Net can produce a new plausible video with the subject
appearance of the subject video and motion pattern of the driving video. TS-Net
consists of a warp-based transformation branch and a warp-free synthesis
branch. The novel design of dual branches combines the strengths of
deformation-grid-based transformation and warp-free generation for better
identity preservation and robustness to occlusion in the synthesized videos. A
mask-aware similarity module is further introduced to the transformation branch
to reduce computational overhead. Experimental results on face and dance
datasets show that TS-Net achieves better performance in video motion
retargeting than several state-of-the-art models as well as its single-branch
variants. Our code is available at https://github.com/nihaomiao/WACV23_TSNet.
- Abstract(参考訳): 本稿では,ビデオモーションリターゲティングのための新しい二分岐変換合成ネットワーク(TS-Net)を提案する。
1つの被写体ビデオと1つの駆動ビデオが与えられると、ts-netは、被写体ビデオの被写体外観と駆動ビデオの運動パターンとを備えた新しい有望なビデオを生成することができる。
ts-net は warp-based transformation branch と warp-free synthesis branch から構成される。
両枝の新規な設計は、変形格子に基づく変換とワープフリー生成の強みを組み合わせて、合成ビデオにおけるアイデンティティの保存と閉塞に対する堅牢性を向上させる。
さらに、トランスフォーメーションブランチにマスク対応類似モジュールを導入し、計算オーバーヘッドを低減する。
顔とダンスのデータセットによる実験結果から、TS-Netは複数の最先端モデルや単一ブランチモデルよりも、ビデオモーションリターゲティングのパフォーマンスが向上していることが示された。
私たちのコードはhttps://github.com/nihaomiao/wacv23_tsnetで利用可能です。
関連論文リスト
- BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction [82.79642869586587]
WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
論文 参考訳(メタデータ) (2022-11-25T18:59:46Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Pose-guided Generative Adversarial Net for Novel View Action Synthesis [6.019777076722422]
アクションビデオが与えられた場合、ゴールは目に見えない視点から同じアクションを生成することです。
我々は Pose-guided Action Separable Generative Adversarial Net (PAS-GAN) という新しいフレームワークを提案する。
我々は、ターゲットビューにおけるシーケンシャルな映像特徴を効果的に生成するために、新しいローカル・グローバル空間変換モジュールを用いる。
論文 参考訳(メタデータ) (2021-10-15T10:33:09Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - ConvTransformer: A Convolutional Transformer Network for Video Frame
Synthesis [12.806940225617138]
本稿では,ビデオフレームシーケンス学習とビデオフレーム合成のための,畳み込みトランスフォーマ(convolutional Transformer)あるいはコンブトランスフォーマ(Conv Transformer)と呼ばれる,新しいエンドツーエンドアーキテクチャを提案する。
我々の知る限りでは、ConvTransformerアーキテクチャが提案され、ビデオフレーム合成に適用されたのはこれが初めてである。
論文 参考訳(メタデータ) (2020-11-20T02:52:53Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。