論文の概要: Less is More: Improving Motion Diffusion Models with Sparse Keyframes
- arxiv url: http://arxiv.org/abs/2503.13859v1
- Date: Tue, 18 Mar 2025 03:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:12.602832
- Title: Less is More: Improving Motion Diffusion Models with Sparse Keyframes
- Title(参考訳): 小さめのキーフレームによる運動拡散モデルの改善
- Authors: Jinseok Bae, Inwoo Hwang, Young Yoon Lee, Ziyu Guo, Joseph Liu, Yizhak Ben-Shabat, Young Min Kim, Mubbasir Kapadia,
- Abstract要約: 本稿では,スパースと幾何学的意味を意識した新しい拡散フレームワークを提案する。
本手法は,非鍵フレームをマスキングし,欠落フレームを効率的に補間することにより低減する。
我々のアプローチは、テキストアライメントやモーションリアリズムにおいて、最先端の手法よりも一貫して優れています。
- 参考スコア(独自算出の注目度): 21.48244441857993
- License:
- Abstract: Recent advances in motion diffusion models have led to remarkable progress in diverse motion generation tasks, including text-to-motion synthesis. However, existing approaches represent motions as dense frame sequences, requiring the model to process redundant or less informative frames. The processing of dense animation frames imposes significant training complexity, especially when learning intricate distributions of large motion datasets even with modern neural architectures. This severely limits the performance of generative motion models for downstream tasks. Inspired by professional animators who mainly focus on sparse keyframes, we propose a novel diffusion framework explicitly designed around sparse and geometrically meaningful keyframes. Our method reduces computation by masking non-keyframes and efficiently interpolating missing frames. We dynamically refine the keyframe mask during inference to prioritize informative frames in later diffusion steps. Extensive experiments show that our approach consistently outperforms state-of-the-art methods in text alignment and motion realism, while also effectively maintaining high performance at significantly fewer diffusion steps. We further validate the robustness of our framework by using it as a generative prior and adapting it to different downstream tasks. Source code and pre-trained models will be released upon acceptance.
- Abstract(参考訳): 動き拡散モデルの最近の進歩は、テキスト・ツー・モーション合成を含む多様な動き生成タスクにおいて顕著な進歩をもたらした。
しかし、既存のアプローチは動きを密度の高いフレームシーケンスとして表現し、余分なあるいは少ない情報的なフレームを処理する必要がある。
濃密なアニメーションフレームの処理は、特に現代のニューラルアーキテクチャでさえ、大きなモーションデータセットの複雑な分布を学習する場合に、非常に複雑なトレーニングを課す。
これにより、下流タスクのための生成運動モデルの性能が著しく制限される。
主に疎鍵フレームに焦点をあてるプロのアニメーターに触発され、疎鍵フレームと幾何学的に意味のあるキーフレームを対象とする新しい拡散フレームワークを提案する。
提案手法は,非鍵フレームをマスキングし,欠落フレームを効率的に補間することにより,計算量を削減する。
推論中にキーフレームマスクを動的に洗練し、後続の拡散ステップで情報フレームを優先順位付けする。
広汎な実験により,本手法はテキストアライメントやモーションリアリズムにおいて常に最先端の手法よりも優れており,また,拡散ステップが著しく少ない場合に高い性能を効果的に維持できることが示された。
我々は、これを生成前として使用し、異なる下流タスクに適応することで、フレームワークの堅牢性をさらに検証する。
ソースコードと事前訓練されたモデルは、受理時にリリースされる。
関連論文リスト
- Thin-Plate Spline-based Interpolation for Animation Line Inbetweening [54.69811179222127]
チャンファー距離(CD: Chamfer Distance)は、一般に間欠的な性能を評価するために用いられる。
薄板スプライン変換を応用したアニメーションラインインテタイニングの簡易かつ効果的な手法を提案する。
提案手法は, 流動性を高めた高品質な結果を提供することにより, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2024-08-17T08:05:31Z) - Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文 参考訳(メタデータ) (2024-06-07T12:12:25Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Enhanced Fine-grained Motion Diffusion for Text-driven Human Motion
Synthesis [21.57205701909026]
我々は,KeyFrames Collaborated を用いたテキスト駆動動作合成のための条件拡散モデル DiffKFC を提案する。
提案モデルでは, 意味的忠実度の観点から最先端のパフォーマンスを実現するが, より重要なことは, 退屈な労力を伴わずに細かなガイダンスによりアニメーターの要求を満たすことができることである。
論文 参考訳(メタデータ) (2023-05-23T07:41:29Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。