論文の概要: LottieGPT: Tokenizing Vector Animation for Autoregressive Generation
- arxiv url: http://arxiv.org/abs/2604.11792v1
- Date: Mon, 13 Apr 2026 17:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.738774
- Title: LottieGPT: Tokenizing Vector Animation for Autoregressive Generation
- Title(参考訳): LottieGPT:自動回帰生成のためのTokenizing Vector Animation
- Authors: Junhao Chen, Kejun Gao, Yuehan Cui, Mingze Sun, Mingjin Chen, Shaohui Wang, Xiaoxiao Long, Fei Ma, Qi Tian, Ruqi Huang, Hao Zhao,
- Abstract要約: ベクトルアニメーションは解像度独立性、コンパクト性、意味構造、パラメトリック編集可能な動き表現を提供する。
現在の生成モデルは宇宙でのみ動作するため、合成はできない。
我々はQwen-VLを微調整し、コヒーレントで編集可能なベクトルアニメーションを生成することができるネイティブマルチモーダルモデルであるLottieGPTを作成する。
- 参考スコア(独自算出の注目度): 63.27046904946992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite rapid progress in video generation, existing models are incapable of producing vector animation, a dominant and highly expressive form of multimedia on the Internet. Vector animations offer resolution-independence, compactness, semantic structure, and editable parametric motion representations, yet current generative models operate exclusively in raster space and thus cannot synthesize them. Meanwhile, recent advances in large multimodal models demonstrate strong capabilities in generating structured data such as slides, 3D meshes, LEGO sequences, and indoor layouts, suggesting that native vector animation generation may be achievable. In this work, we present the first framework for tokenizing and autoregressively generating vector animations. We adopt Lottie, a widely deployed JSON-based animation standard, and design a tailored Lottie Tokenizer that encodes layered geometric primitives, transforms, and keyframe-based motion into a compact and semantically aligned token sequence. To support large-scale training, we also construct LottieAnimation-660K, the largest and most diverse vector animation dataset to date, consisting of 660k real-world Lottie animation and 15M static Lottie image files curated from broad Internet sources. Building upon these components, we finetune Qwen-VL to create LottieGPT, a native multimodal model capable of generating coherent, editable vector animations directly from natural language or visual prompts. Experiments show that our tokenizer dramatically reduces sequence length while preserving structural fidelity, enabling effective autoregressive learning of dynamic vector content. LottieGPT exhibits strong generalization across diverse animation styles and outperforms previous state-of-the-art models on SVG generation (a special case of single-frame vector animation).
- Abstract(参考訳): ビデオ生成の急速な進歩にもかかわらず、既存のモデルは、インターネット上で支配的かつ表現力の高いマルチメディア形式であるベクトルアニメーションを生成できない。
ベクトルアニメーションは、解像度独立性、コンパクト性、セマンティック構造、編集可能なパラメトリックモーション表現を提供するが、現在の生成モデルはラスター空間でのみ動作するため、それらを合成することはできない。
一方、大規模マルチモーダルモデルの最近の進歩は、スライド、3Dメッシュ、LEGOシーケンス、屋内レイアウトなどの構造化データを生成する強力な能力を示し、ネイティブベクトルアニメーション生成が実現可能であることを示唆している。
本研究では,ベクトルアニメーションのトークン化と自動回帰生成のための最初のフレームワークを提案する。
私たちは広くデプロイされたJSONベースのアニメーション標準であるLottieを採用し、階層化された幾何学的プリミティブ、変換、キーフレームベースのモーションをコンパクトでセマンティックに整合したトークンシーケンスにエンコードする、カスタマイズされたLottie Tokenizerを設計します。
大規模なトレーニングを支援するため,これまでで最大かつ最も多様なベクトルアニメーションデータセットであるLottieAnimation-660Kを構築した。
これらのコンポーネントに基づいてQwen-VLを微調整し、自然言語やビジュアルプロンプトから直接コヒーレントで編集可能なベクトルアニメーションを生成することができるネイティブマルチモーダルモデルであるLottieGPTを作成する。
実験の結果, トークン化器は構造的忠実性を維持しつつ, 配列長を劇的に短縮し, 動的ベクトルの自己回帰学習を効果的に行うことができることがわかった。
LottieGPTは、様々なアニメーションスタイルにまたがる強力な一般化を示し、SVG生成における従来の最先端モデル(特に単一フレームベクトルアニメーション)より優れている。
関連論文リスト
- OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens [56.699545482716736]
そこで我々は,ファイルから形状,アニメーション機能,制御パラメータを表すコマンドやパラメータの構造化シーケンスに変換する,よく設計されたLottieトークンを導入している。
このようなトークン化により、事前学習された視覚言語モデルに基づいてOmniLottieを構築し、マルチモーダルなインターリーブ命令に従い、高品質なベクトルアニメーションを生成することができる。
論文 参考訳(メタデータ) (2026-03-02T17:59:05Z) - Animate-X++: Universal Character Image Animation with Dynamic Backgrounds [32.04255747303296]
Animate-X++は、擬人化文字を含む様々な文字タイプ向けのDiTに基づく普遍的なアニメーションフレームワークである。
動作表現を強化するために,暗黙的かつ明示的な方法で動画から包括的な動作パターンをキャプチャするPose Indicatorを導入する。
第2の課題として、アニメーションとTI2Vタスクを共同でトレーニングするマルチタスクトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-08-13T03:11:28Z) - PhysAnimator: Physics-Guided Generative Cartoon Animation [19.124321553546242]
PhysAnimatorは、静的アニメイラストからアニメスティル化されたアニメーションを生成するための新しいアプローチである。
アニメの流動性と誇張特性を捉えるため,抽出したメッシュ地形上で画像空間の変形可能な物体シミュレーションを行った。
シミュレーションシーケンスからスケッチを抽出し、テクスチャに依存しない表現を生成し、スケッチ誘導映像拡散モデルを用いて高品質なアニメーションフレームを合成する。
論文 参考訳(メタデータ) (2025-01-27T22:48:36Z) - Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters [86.13319549186959]
我々は3次元ヒューマノイドモデルを1秒未満でキャラクターアニメーションに対応させる新しいデータ駆動方式であるMake-It-Animatableを提案する。
我々のフレームワークは、高品質なブレンドウェイト、骨、ポーズトランスフォーメーションを生成します。
既存の手法と比較して,本手法は品質と速度の両方において著しく改善されている。
論文 参考訳(メタデータ) (2024-11-27T10:18:06Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [79.4785166021062]
本稿では,対話型ビデオジェネレータPuppet-Masterを紹介した。
Puppet-Masterは、他のモーションコンディショニングビデオジェネレータとは異なり、パートレベルのモーションを生成することを学習している。
Puppet-Masterはドメイン外の実際のイメージを一般化し、実世界のベンチマークで既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - AniFormer: Data-driven 3D Animation with Transformer [95.45760189583181]
そこで本研究では,ターゲット3Dオブジェクトを原駆動シーケンスの動作によってアニメーションする,新しいタスクを提案する。
AniFormerは、生の駆動シーケンスと任意の同じタイプのターゲットメッシュを直接入力として取り込んでアニメーション3Dシーケンスを生成する。
我々のAniFormerは、様々なカテゴリのベンチマークにおいて、高忠実で、現実的で、時間的に一貫性のあるアニメーション結果を実現し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-10-20T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。