論文の概要: AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising
- arxiv url: http://arxiv.org/abs/2402.03549v1
- Date: Mon, 5 Feb 2024 22:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:33:49.343109
- Title: AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising
- Title(参考訳): AnaMoDiff:Dunangled Denoisingによる2次元運動拡散
- Authors: Maham Tanveer, Yizhi Wang, Ruiqi Wang, Nanxuan Zhao, Ali
Mahdavi-Amiri, Hao Zhang
- Abstract要約: AnaMoDiffは2次元モーションアナログの新しい拡散法である。
私たちのゴールは、2Dドライビングビデオからソースキャラクタへの動きを、外見や自然な動きの観点から正確に転送することです。
- 参考スコア(独自算出の注目度): 25.839194626743126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AnaMoDiff, a novel diffusion-based method for 2D motion analogies
that is applied to raw, unannotated videos of articulated characters. Our goal
is to accurately transfer motions from a 2D driving video onto a source
character, with its identity, in terms of appearance and natural movement, well
preserved, even when there may be significant discrepancies between the source
and driving characters in their part proportions and movement speed and styles.
Our diffusion model transfers the input motion via a latent optical flow (LOF)
network operating in a noised latent space, which is spatially aware, efficient
to process compared to the original RGB videos, and artifact-resistant through
the diffusion denoising process even amid dense movements. To accomplish both
motion analogy and identity preservation, we train our denoising model in a
feature-disentangled manner, operating at two noise levels. While
identity-revealing features of the source are learned via conventional noise
injection, motion features are learned from LOF-warped videos by only injecting
noise with large values, with the stipulation that motion properties involving
pose and limbs are encoded by higher-level features. Experiments demonstrate
that our method achieves the best trade-off between motion analogy and identity
preservation.
- Abstract(参考訳): 本稿では,2次元モーションアナロジーの拡散に基づく新しい手法であるAnaMoDiffについて述べる。
我々のゴールは、2次元駆動映像からの動きを、その同一性、外観と自然運動の観点から正確に転写することであり、その部分比率と運動速度とスタイルにおいて、音源と駆動キャラクターの間に大きな相違がある場合であっても、十分に保存することである。
拡散モデルでは,遅延光流(LOF)ネットワークを介して入射運動を伝達するが,これは空間的に認識され,元のRGBビデオと比較して処理が効率的であり,高密度な動きであっても拡散復調過程を通じてアーチファクトに耐性がある。
動作アナロジーとアイデンティティ保存の両方を達成するために,2つのノイズレベルで動作しながら,特徴的不整合でデノナイジングモデルを訓練する。
音源の個人識別は従来のノイズ注入によって学習されるが、ポーズと手足を含む動き特性は高次特徴によって符号化されるという規定により、大きな値でノイズを注入するだけでLOF処理した動画から運動特徴が学習される。
実験により,本手法は動作類似とアイデンティティ保存の最良のトレードオフを実現することを示す。
関連論文リスト
- Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
本稿では,ワンショット微調整による未確認課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
映像の動作と外観を効果的に分離するために,時間的二段階学習戦略を設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering
within Transformer [30.470336098766765]
ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破ることを目的としている。
本稿では,静的場適応型復調を実現するための新しい動的フィルタリング手法を提案する。
我々は、ユーラーモーマーがユーレリア視点からより堅牢なビデオモーション倍率を達成するための広範な実験を実証する。
論文 参考訳(メタデータ) (2023-12-07T09:10:16Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。
我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-12-08T03:07:00Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。