論文の概要: IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation
- arxiv url: http://arxiv.org/abs/2602.07498v1
- Date: Sat, 07 Feb 2026 11:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.655737
- Title: IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation
- Title(参考訳): IMアニメーション:アイデンティティ分離された文字アニメーションのための暗黙の動作表現
- Authors: Zhufeng Xu, Xuan Gao, Feng-Lin Liu, Haoxian Zhang, Zhixue Fang, Yu-Kun Lai, Xiaoqiang Liu, Pengfei Wan, Lin Gao,
- Abstract要約: インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
- 参考スコア(独自算出の注目度): 58.297199313494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in video diffusion models has markedly advanced character animation, which synthesizes motioned videos by animating a static identity image according to a driving video. Explicit methods represent motion using skeleton, DWPose or other explicit structured signals, but struggle to handle spatial mismatches and varying body scales. %proportions. Implicit methods, on the other hand, capture high-level implicit motion semantics directly from the driving video, but suffer from identity leakage and entanglement between motion and appearance. To address the above challenges, we propose a novel implicit motion representation that compresses per-frame motion into compact 1D motion tokens. This design relaxes strict spatial constraints inherent in 2D representations and effectively prevents identity information leakage from the motion video. Furthermore, we design a temporally consistent mask token-based retargeting module that enforces a temporal training bottleneck, mitigating interference from the source images' motion and improving retargeting consistency. Our methodology employs a three-stage training strategy to enhance the training efficiency and ensure high fidelity. Extensive experiments demonstrate that our implicit motion representation and the propose IM-Animation's generative capabilities are achieve superior or competitive performance compared with state-of-the-art methods.
- Abstract(参考訳): 近年の映像拡散モデルの発展により,動画像のアニメーション化により,動画像のアニメーション化が可能となった。
明示的な方法は骨格、DWPose、その他の明示的な構造化された信号を用いて動きを表現するが、空間的ミスマッチや様々な身体スケールを扱うのに苦労する。
%であった。
一方、インプシット法は、運転映像から直接、ハイレベルな暗黙の動作意味をキャプチャするが、動作と外観の絡み合いに悩まされる。
上記の課題に対処するために,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する,新しい暗黙の動作表現を提案する。
この設計は、2次元表現に固有の厳密な空間制約を緩和し、モーションビデオからのID情報の漏洩を効果的に防止する。
さらに、時間的に一貫したマスクトークンベースの再ターゲティングモジュールを設計し、時間的訓練ボトルネックを強制し、ソース画像の動きからの干渉を緩和し、再ターゲティングの整合性を改善する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
広汎な実験により,我々の暗黙の動作表現とIMアニメーションの生成能力は,最先端の手法と比較して優れた,あるいは競争的な性能が得られることが示された。
関連論文リスト
- DisMo: Disentangled Motion Representations for Open-World Motion Transfer [21.557843791867906]
DisMoは、生のビデオデータから直接抽象的な動きを表現するための新しいパラダイムである。
私たちの表現は、外見、オブジェクトのアイデンティティ、ポーズといった静的情報とは独立しています。
学習した表現は下流の動作理解タスクに適していることを示す。
論文 参考訳(メタデータ) (2025-11-28T18:25:54Z) - Consistent and Controllable Image Animation with Motion Linear Diffusion Transformers [23.176184261595747]
画像アニメーションにおける効率性, 外観の整合性, 動きの滑らかさを向上するフレームワークであるMiraMoを提案する。
具体的には,(1)ベニラ自己注意を効率的な線形注意に置き換えて生成品質を保ちながら計算オーバーヘッドを低減するための基本的テキスト・ビデオアーキテクチャ,(2)フレームを直接予測するのではなく動きのダイナミクスをモデル化する新たな動き残留学習パラダイム,(3)動きの滑らかさと表現性のバランスをとる動的制御モジュールによって補完された推論中のDCTに基づくノイズ改善戦略,の3つの重要な要素を紹介する。
論文 参考訳(メタデータ) (2025-08-10T08:59:32Z) - X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。
異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文 参考訳(メタデータ) (2025-07-30T22:46:52Z) - A Self-supervised Motion Representation for Portrait Video Generation [19.56640370303683]
本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。
提案手法は,高品質な視覚的結果と効率的な推論を両立させる。
我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-03-13T06:43:21Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - AnaMoDiff: 2D Analogical Motion Diffusion via Disentangled Denoising [25.839194626743126]
AnaMoDiffは2次元モーションアナログの新しい拡散法である。
私たちのゴールは、2Dドライビングビデオからソースキャラクタへの動きを、外見や自然な動きの観点から正確に転送することです。
論文 参考訳(メタデータ) (2024-02-05T22:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。