論文の概要: MotiMotion: Motion-Controlled Video Generation with Visual Reasoning
- arxiv url: http://arxiv.org/abs/2605.22818v1
- Date: Thu, 21 May 2026 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.393594
- Title: MotiMotion: Motion-Controlled Video Generation with Visual Reasoning
- Title(参考訳): MotiMotion:ビジュアル推論によるモーション制御ビデオ生成
- Authors: Lee Hsin-Ying, Hanwen Jiang, Yiqun Mei, Jing Shi, Ming-Hsuan Yang, Zhixin Shu,
- Abstract要約: 本稿では,動作制御を次世代問題として再定義するフレームワークであるMotiMotionを紹介する。
因果的基盤とコモンセンスと一貫性のある相互作用を促進するために,学習不要な視覚言語推論手法を活用する。
動作の自然性をさらに向上するために,誘導強度を変調する信頼度を考慮した制御方式を提案する。
- 参考スコア(独自算出の注目度): 49.243234645532745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current motion-controlled image-to-video generation models rigidly follow user-provided trajectories that are often sparse, imprecise, and causally incomplete. Such reliance often yields unnatural or implausible outcomes, especially by missing secondary causal consequences. To address this, we introduce MotiMotion, a novel framework that reformulates motion control as a reasoning-then-generation problem. To encourage causally grounded and commonsense-consistent interactions, we leverage a training-free vision-language reasoner to refine image-space coordinates of primary trajectories and to hallucinate plausible secondary motions. To further improve motion naturalness, we propose a confidence-aware control scheme that modulates guidance strength, enabling the model to closely follow high-confidence plans while correcting artifacts under low-confidence inputs with its internal generative priors. To support systematic evaluation, we curate a new image-to-video benchmark, MotiBench, consisting of interaction-centric scenes where new events are triggered by motion. Both VLM-based evaluation and a human study on MotiBench demonstrate that MotiMotion produces videos with more plausible object behaviors and interaction, and is preferred over existing approaches.
- Abstract(参考訳): 現在のモーションコントロール画像・ビデオ生成モデルは、しばしばスパースで不正確で因果的に不完全であるユーザが提供する軌跡を厳格に追従する。
このような依存は、特に二次因果関係の欠如によって、しばしば不自然または不自然な結果をもたらす。
そこで本研究では,動作制御を推論世代問題として再構成する新しいフレームワークであるMotiMotionを紹介する。
因果的基盤とコモンセンス-一貫性の相互作用を促進するために、トレーニング不要な視覚言語推論を用いて、一次軌跡の画像空間座標を洗練し、可視な二次運動を幻覚させる。
動作の自然性をさらに向上するために、誘導強度を変調し、高信頼プランを忠実に追従し、内部生成前の低信頼入力でアーティファクトを補正する信頼度制御方式を提案する。
システム評価を支援するため,新たなイベントが動きによってトリガされるインタラクション中心のシーンからなる,画像とビデオのベンチマークMotiBenchをキュレートする。
VLMに基づく評価とMotiBenchでの人間による研究は、MotiMotionがより可塑性なオブジェクトの挙動と相互作用を持つビデオを制作し、既存のアプローチよりも好まれることを示した。
関連論文リスト
- MotionMERGE: A Multi-granular Framework for Human Motion Editing, Reasoning, Generation, and Explanation [66.66098171359995]
MotionMERGEは、モーション言語モデルの粒度のギャップを埋める統合フレームワークである。
まず,詳細な理解と局所的な編集を含む,粒度の細かい言語誘導型モーションコントロールの研究の先駆者となる。
第2に,粒度調整を共同で行う新しい戦略である粒度事前学習を意識したReasoningAware Granularity-Synergyを設計する。
第3に、第1の微細時間補正命令とモーショングラウンドCoTアノテーションを備えた大規模データセットであるMotionFineEditをキュレートする。
論文 参考訳(メタデータ) (2026-05-18T18:00:04Z) - EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation [74.07852250099559]
Egocentric Vision-Language (Ego-VL) モーション生成について検討する。
本課題は,1対1の視覚的観察と自然言語の指示を併用した3次元人間の動作を合成することである。
この課題に対処するために,階層型生成フレームワーク textbfEgoMotion を提案する。
論文 参考訳(メタデータ) (2026-04-21T05:31:06Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。