論文の概要: MotionEdit: Benchmarking and Learning Motion-Centric Image Editing
- arxiv url: http://arxiv.org/abs/2512.10284v2
- Date: Sun, 14 Dec 2025 01:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.219837
- Title: MotionEdit: Benchmarking and Learning Motion-Centric Image Editing
- Title(参考訳): MotionEdit: ベンチマークと学習のためのMotion-Centric ImageEditing
- Authors: Yixin Wan, Lei Ke, Wenhao Yu, Kai-Wei Chang, Dong Yu,
- Abstract要約: 動き中心の画像編集のための新しいデータセットであるMotionEditを紹介する。
MotionEditは、連続ビデオから抽出されたリアルな動き変換を描写した高忠実な画像ペアを提供する。
本研究では,入力画像とモデル編集画像間の動きの流れが地中動とどのように一致しているかに基づいて,動きアライメントの報酬を計算するためにMotionNFTを提案する。
- 参考スコア(独自算出の注目度): 81.28392925790568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MotionEdit, a novel dataset for motion-centric image editing-the task of modifying subject actions and interactions while preserving identity, structure, and physical plausibility. Unlike existing image editing datasets that focus on static appearance changes or contain only sparse, low-quality motion edits, MotionEdit provides high-fidelity image pairs depicting realistic motion transformations extracted and verified from continuous videos. This new task is not only scientifically challenging but also practically significant, powering downstream applications such as frame-controlled video synthesis and animation. To evaluate model performance on the novel task, we introduce MotionEdit-Bench, a benchmark that challenges models on motion-centric edits and measures model performance with generative, discriminative, and preference-based metrics. Benchmark results reveal that motion editing remains highly challenging for existing state-of-the-art diffusion-based editing models. To address this gap, we propose MotionNFT (Motion-guided Negative-aware Fine Tuning), a post-training framework that computes motion alignment rewards based on how well the motion flow between input and model-edited images matches the ground-truth motion, guiding models toward accurate motion transformations. Extensive experiments on FLUX.1 Kontext and Qwen-Image-Edit show that MotionNFT consistently improves editing quality and motion fidelity of both base models on the motion editing task without sacrificing general editing ability, demonstrating its effectiveness. Our code is at https://github.com/elainew728/motion-edit/.
- Abstract(参考訳): 動作中心の画像編集のための新しいデータセットであるMotionEditを紹介した。
静的な外観の変化にフォーカスする既存の画像編集データセットや、スパースで低品質なモーション編集のみを含む既存の画像編集データセットとは異なり、MotionEditは、連続ビデオから抽出、検証された現実的なモーション変換を描写した高忠実なイメージペアを提供する。
この新たなタスクは科学的に困難なだけでなく、フレーム制御されたビデオ合成やアニメーションといった下流のアプリケーションにも有効である。
新たなタスクにおけるモデル性能を評価するために,動作中心の編集モデルに挑戦するMotionEdit-Benchを導入し,生成性,識別性,嗜好に基づく指標を用いてモデル性能を評価する。
ベンチマークの結果,既存の拡散型編集モデルでは,モーション編集は非常に困難であることが判明した。
このギャップに対処するために,入力画像とモデル編集画像間の運動流が地動運動とどの程度うまく一致しているかに基づいて,動きアライメント報酬を計算し,正確な動き変換に向けてモデルを導く学習後フレームワークであるMotion-guided Negative-aware Fine Tuningを提案する。
FLUX.1の大規模実験
Kontext と Qwen-Image-Edit は、MotionNFT が一般的な編集能力を犠牲にすることなく、モーション編集タスクにおける両ベースモデルの編集品質と運動忠実度を一貫して改善し、その効果を実証していることを示している。
私たちのコードはhttps://github.com/elainew728/motion-edit/です。
関連論文リスト
- SimMotionEdit: Text-Based Human Motion Editing with Motion Similarity Prediction [20.89960239295474]
本稿では,関連するタスク,動作類似度予測を導入し,マルチタスク学習パラダイムを提案する。
我々は、意味論的意味のある表現の学習を促進するために、動きの編集と動きの類似性予測を共同で訓練する。
実験は、アライメントと忠実さの両面において、我々のアプローチの最先端性能を実証した。
論文 参考訳(メタデータ) (2025-03-23T21:29:37Z) - Edit as You See: Image-guided Video Editing via Masked Motion Modeling [18.89936405508778]
画像誘導映像編集拡散モデル(IVEDiff)を提案する。
IVEDiffは画像編集モデル上に構築されており、ビデオ編集の時間的一貫性を維持するための学習可能なモーションモジュールを備えている。
本手法は,高画質な編集対象を忠実に処理しながら,時間的にスムーズな編集映像を生成することができる。
論文 参考訳(メタデータ) (2025-01-08T07:52:12Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Motion-Conditioned Image Animation for Video Editing [65.90398261600964]
MoCAは動画編集のためのモーションコンディション・イメージ・アニメーション・アプローチである。
提案するベンチマークでは,MoCAとともに最新の映像編集手法の総合的評価を行う。
MoCAは新たな最先端技術を確立し、人間の嗜好の勝利率を高め、最近の顕著なアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-11-30T18:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。