論文の概要: MoVer: Motion Verification for Motion Graphics Animations
- arxiv url: http://arxiv.org/abs/2502.13372v1
- Date: Wed, 19 Feb 2025 02:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:10.150118
- Title: MoVer: Motion Verification for Motion Graphics Animations
- Title(参考訳): MoVer:モーショングラフィックアニメーションのためのモーション検証
- Authors: Jiaju Ma, Maneesh Agrawala,
- Abstract要約: MoVerは、一階述語論理に基づく動作検証である。
LLMに基づく合成および検証パイプラインでMoVerをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 22.492092552107803
- License:
- Abstract: While large vision-language models can generate motion graphics animations from text prompts, they regularly fail to include all of spatio-temporal properties described in the prompt. We introduce MoVer, a motion verification DSL based on first-order logic that can check spatio-temporal properties of a motion graphics animation. We identify a general set of such properties that people commonly use to describe animations (e.g., the direction and timing of motions, the relative positioning of objects, etc.). We implement these properties as predicates in MoVer and provide an execution engine that can apply a MoVer program to any input SVG-based motion graphics animation. We then demonstrate how MoVer can be used in an LLM-based synthesis and verification pipeline for iteratively refining motion graphics animations. Given a text prompt, our pipeline synthesizes a motion graphics animation and a corresponding MoVer program. Executing the verification program on the animation yields a report of the predicates that failed and the report can be automatically fed back to LLM to iteratively correct the animation. To evaluate our pipeline, we build a synthetic dataset of 5600 text prompts paired with ground truth MoVer verification programs. We find that while our LLM-based pipeline is able to automatically generate a correct motion graphics animation for 58.8% of the test prompts without any iteration, this number raises to 93.6% with up to 50 correction iterations. Project website: https://mover-dsl.github.io/
- Abstract(参考訳): 大きな視覚言語モデルはテキストプロンプトからモーショングラフィックアニメーションを生成することができるが、プロンプトに記述された時空間特性をすべて含まない。
本稿では,モーショングラフィックアニメーションの時空間特性をチェックする一階述語論理に基づく動作検証DSLであるMoVerを紹介する。
アニメーション(例えば、動きの方向やタイミング、物体の相対的な位置など)を記述するのによく使われる、一般的な性質の集合を同定する。
我々はこれらの特性をMoVerの述語として実装し、任意の入力SVGベースのモーショングラフィックアニメーションにMoVerプログラムを適用可能な実行エンジンを提供する。
そこで我々は,MoVer を LLM ベースの合成および検証パイプラインで,動画像アニメーションを反復的に精錬する方法を実証した。
テキストプロンプトが与えられた場合、パイプラインはモーショングラフィックアニメーションと対応するMoVerプログラムを合成する。
アニメーション上で検証プログラムを実行すると、失敗した述語に関するレポートが得られ、そのレポートをLSMに自動的に送り返してアニメーションを反復的に修正することができる。
パイプラインを評価するため、5600のテキストプロンプトと、MoVer検証プログラムを組み合わせた合成データセットを構築した。
LLMベースのパイプラインは、テストプロンプトの58.8%で自動で正確なモーショングラフィックアニメーションを生成することができるが、この数値は最大50回の修正イテレーションで93.6%まで上昇する。
プロジェクトウェブサイト:https://mover-dsl.github.io/
関連論文リスト
- Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
ストーリーテリングビデオ生成(SVG)は、最近、長いマルチモーションのマルチシーンビデオを作成するタスクとして登場した。
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
文字の整合性、テキストアライメント、スムーズな遷移における最先端性能を示す。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z) - Motion Generation from Fine-grained Textual Descriptions [29.033358642532722]
我々は,ファインヒューマンML3Dという微細なテキスト記述を専門とする大規模言語移動データセットを構築した。
新しいテキスト2モーションモデルであるFineMotionDiffuseを設計し、微細なテキスト情報をフル活用する。
FineMotionDiffuseはFinHumanML3Dで訓練し,FIDを0.38の差で改善した。
論文 参考訳(メタデータ) (2024-03-20T11:38:30Z) - Iterative Motion Editing with Natural Language [23.836693717924845]
テキスト間拡散モデルはテキストプロンプトからリアルなアニメーションを生成することができるが、微粒なモーション編集制御はサポートしていない。
本稿では,既存の文字アニメーションに局所的な編集を反復的に指定するために自然言語を用いる手法を提案する。
本システムは,アニメーターの編集意図を尊重する動作編集を行い,オリジナルアニメーションに忠実であり,リアルなキャラクターアニメーション結果が得られる。
論文 参考訳(メタデータ) (2023-12-15T22:38:24Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - AnimateAnything: Fine-Grained Open Domain Image Animation with Motion
Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。
本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。
オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-21T03:47:54Z) - Real-time Animation Generation and Control on Rigged Models via Large
Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。
大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文 参考訳(メタデータ) (2023-10-27T01:36:35Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。