論文の概要: MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation
- arxiv url: http://arxiv.org/abs/2603.14073v1
- Date: Sat, 14 Mar 2026 18:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.582197
- Title: MotionCFG: Boosting Motion Dynamics via Stochastic Concept Perturbation
- Title(参考訳): MotionCFG:確率的概念摂動による運動ダイナミクスの促進
- Authors: Byungjun Kim, Soobin Um, Jong Chul Ye,
- Abstract要約: MotionCFGは、ターゲットコンセプトとノイズブレーブの概念を対比することにより、モーションダイナミクスを強化するフレームワークである。
明示的な否定とは異なり、このアプローチはグローバルな意味的アイデンティティをシフトすることなく暗黙的な否定的なガイダンスを促進する。
MotionCFGは、最先端のT2Vフレームワーク間のモーションダイナミクスを一貫して改善する。
- 参考スコア(独自算出の注目度): 60.48914865049489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in Text-to-Video (T2V) synthesis, generating high-fidelity and dynamic motion remains a significant challenge. Existing methods primarily rely on Classifier-Free Guidance (CFG), often with explicit negative prompts (e.g. "static", "blurry"), to suppress undesired artifacts. However, such explicit negations frequently introduce unintended semantic bias and distort object integrity; a phenomenon we define as Content-Motion Drift. To address this, we propose MotionCFG, a framework that enhances motion dynamics by contrasting a target concept with its noise-perturbed counterparts. Specifically, by injecting Gaussian noise into the concept embeddings, MotionCFG creates localized negative anchors that encapsulate a broad complementary space of sub-optimal motion variations. Unlike explicit negations, this approach facilitates implicit hard negative mining without shifting the global semantic identity, allowing for a focused refinement of temporal details. Combined with a piecewise guidance schedule that confines intervention to the early denoising steps, MotionCFG consistently improves motion dynamics across state-of-the-art T2V frameworks with negligible computational overhead and minimal compromise in visual quality. Additionally, we demonstrate that this noise-induced contrastive mechanism is effective not only for sharpening motion trajectories but also for steering complex, non-linear concepts such as precise object numerosity, which are typically difficult to modulate via standard text-based guidance.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)合成の最近の進歩にもかかわらず、高忠実さとダイナミックモーションを生成することは大きな課題である。
既存のメソッドは主に、望ましくないアーティファクトを抑えるために、明示的な負のプロンプト(例えば "static" や "blurry" など)を持つ、分類自由誘導(CFG)に依存している。
しかし、このような明示的な否定は意図しない意味バイアスや歪んだオブジェクトの完全性をもたらすことが多く、これは私たちがContent-Motion Driftと定義する現象である。
そこで本研究では,目標概念とノイズ摂動概念を対比して運動力学を強化するフレームワークであるMotionCFGを提案する。
具体的には、ガウスノイズを埋め込みの概念に注入することにより、モーションCFGは局所化された負のアンカーを生成し、準最適運動変動の広い相補空間をカプセル化する。
明示的な否定とは異なり、このアプローチはグローバルな意味的アイデンティティをシフトすることなく暗黙的な強硬な負のマイニングを促進するため、時間的詳細を集中的に洗練することができる。
MotionCFGは、初期段階への介入を限定する断片的なガイダンススケジュールと組み合わせて、最先端のT2Vフレームワーク間のモーションダイナミクスを、無視できる計算オーバーヘッドと視覚的品質の最小限の妥協で一貫して改善する。
さらに、このノイズ誘起コントラスト機構は、運動軌跡を鋭くするだけでなく、典型的には標準のテキストベースガイダンスによる変調が困難であるような、複雑で非線形な概念の操舵にも有効であることを示した。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - MotionAdapter: Video Motion Transfer via Content-Aware Attention Customization [73.07309070257162]
MotionAdapterは、ロバストでセマンティックに整合したモーション転送を可能にする、コンテンツ対応のモーション転送フレームワークである。
我々の重要な洞察は、効果的な動き伝達は外見から運動を明示的に切り離す必要があることである。
MotionAdapterは自然に複雑なモーション転送とズームのようなモーション編集タスクをサポートする。
論文 参考訳(メタデータ) (2026-01-05T10:01:27Z) - DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization [2.0032531485183345]
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
論文 参考訳(メタデータ) (2025-07-18T14:09:18Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering
within Transformer [30.470336098766765]
ビデオモーション・マグニフィケーション(VMM)は、人間の視覚知覚能力の解像度限界を破ることを目的としている。
本稿では,静的場適応型復調を実現するための新しい動的フィルタリング手法を提案する。
我々は、ユーラーモーマーがユーレリア視点からより堅牢なビデオモーション倍率を達成するための広範な実験を実証する。
論文 参考訳(メタデータ) (2023-12-07T09:10:16Z) - Guided Motion Diffusion for Controllable Human Motion Synthesis [18.660523853430497]
本稿では,空間的制約を運動生成プロセスに組み込む手法として,誘導運動拡散(GMD)を提案する。
具体的には、空間情報と局所的なポーズの一貫性を高めるために、動きの表現を操作する効果的な特徴投影方式を提案する。
本実験はGMDの開発を正当化し,テキストベースモーション生成における最先端手法を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-21T21:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。