論文の概要: MOVi: Training-free Text-conditioned Multi-Object Video Generation
- arxiv url: http://arxiv.org/abs/2505.22980v1
- Date: Thu, 29 May 2025 01:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.609479
- Title: MOVi: Training-free Text-conditioned Multi-Object Video Generation
- Title(参考訳): MOVi: トレーニング不要のテキストコンディショニングマルチオブジェクトビデオ生成
- Authors: Aimon Rahman, Jiang Liu, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Yusheng Su, Vishal M. Patel, Zicheng Liu, Emad Barsoum,
- Abstract要約: 拡散モデルと大言語モデル(LLM)のオープンワールド知識を活用するマルチオブジェクトビデオ生成のためのトレーニング不要なアプローチを提案する。
LLMをオブジェクト軌跡のディレクタ'として使用し、ノイズ再初期化によるトラジェクトリを適用して現実的な動きを正確に制御する。
既存のビデオ拡散モデルのマルチオブジェクト生成能力を著しく向上する学習自由アプローチの有効性を実験により検証した。
- 参考スコア(独自算出の注目度): 43.612899589093075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion-based text-to-video (T2V) models have demonstrated remarkable progress, but these models still face challenges in generating videos with multiple objects. Most models struggle with accurately capturing complex object interactions, often treating some objects as static background elements and limiting their movement. In addition, they often fail to generate multiple distinct objects as specified in the prompt, resulting in incorrect generations or mixed features across objects. In this paper, we present a novel training-free approach for multi-object video generation that leverages the open world knowledge of diffusion models and large language models (LLMs). We use an LLM as the ``director'' of object trajectories, and apply the trajectories through noise re-initialization to achieve precise control of realistic movements. We further refine the generation process by manipulating the attention mechanism to better capture object-specific features and motion patterns, and prevent cross-object feature interference. Extensive experiments validate the effectiveness of our training free approach in significantly enhancing the multi-object generation capabilities of existing video diffusion models, resulting in 42% absolute improvement in motion dynamics and object generation accuracy, while also maintaining high fidelity and motion smoothness.
- Abstract(参考訳): 近年の拡散型テキスト・ビデオ・モデル(T2V)の進歩は目覚ましい進歩をみせているが、これらのモデルは複数のオブジェクトでビデオを生成する際の課題に直面している。
ほとんどのモデルは複雑なオブジェクトの相互作用を正確に捉え、いくつかのオブジェクトを静的な背景要素として扱い、動きを制限するのに苦労する。
さらに、プロンプトで指定された複数の異なるオブジェクトの生成に失敗することが多く、結果として、オブジェクト間の誤った世代や混合機能が発生する。
本稿では,拡散モデルと大規模言語モデル(LLM)のオープンワールド知識を活用するマルチオブジェクトビデオ生成のための,新たなトレーニング不要なアプローチを提案する。
LLMを対象軌跡の ‘director' として使用し,ノイズ再初期化による軌道の適用により,現実的な動きの正確な制御を実現する。
我々は、物体特有の特徴や動きパターンをよりよく捉え、物体間の特徴干渉を防止するために、注目機構を操作することにより、生成プロセスをさらに洗練する。
実験により,既存の映像拡散モデルのマルチオブジェクト生成能力を著しく向上させる訓練自由アプローチの有効性が検証され,運動力学とオブジェクト生成精度が42%向上し,高忠実度と運動滑らか性を維持した。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。