論文の概要: MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2509.26391v1
- Date: Tue, 30 Sep 2025 15:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.182133
- Title: MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
- Title(参考訳): MotionRAG:モーション検索による画像合成
- Authors: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang,
- Abstract要約: MotionRAGは、関連する参照ビデオから動きの先行を適応させることで、モーションリアリズムを強化する検索強化フレームワークである。
提案手法は,複数のドメインや様々なベースモデルに対して,推論時の計算オーバーヘッドを無視できるような大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 44.524568858995586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.
- Abstract(参考訳): 画像から映像への生成は拡散モデルの進歩によって顕著な進歩を遂げてきたが、現実的な動きを持つビデオを生成することは依然として非常に困難である。
この難しさは、物理的な制約、オブジェクトの相互作用、そして様々なシナリオで簡単に一般化できないドメイン固有のダイナミクスをキャプチャする動きを正確にモデル化することの複雑さから生じる。
そこで本研究では,アクティベーション・アウェア・モーション・アダプテーション(CAMA)を通じて,関連する参照ビデオから動きの先行を適応させることにより,動きリアリズムを向上するフレームワークであるMotionRAGを提案する。
重要な技術革新は以下のとおりである。
一 ビデオエンコーダ及び特殊リサンプラーを用いて高次動作特徴を抽出し、セマンティックな動作表現を蒸留する検索ベースパイプライン
(II)因果変換器アーキテクチャによる動作適応のための文脈内学習手法
三 動画拡散モデルに転写された動き特徴をシームレスに統合する注意型モーションインジェクションアダプタ。
大規模な実験により,提案手法は複数の領域および様々なベースモデルにまたがる大幅な改善を実現し,すべて推論時の計算オーバーヘッドを無視できることを示した。
さらに、モジュール設計により、コンポーネントを再トレーニングすることなく、検索データベースを更新するだけで、新しいドメインへのゼロショットの一般化が可能になる。
本研究は, 映像生成システムのコア能力を高めるために, 動画像の効率的な検索と転送を可能にし, 現実的な動画像の合成を容易にする。
関連論文リスト
- Physics-Guided Motion Loss for Video Generation Model [8.083315267770255]
現在のビデオ拡散モデルは視覚的に魅力的なコンテンツを生成するが、物理の基本法則に反することが多い。
モデルアーキテクチャを変更することなく、動きの可視性を向上する周波数領域物理を導入する。
論文 参考訳(メタデータ) (2025-06-02T20:42:54Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。