Fugu-MT 論文翻訳(概要): OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

論文の概要: OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

arxiv url: http://arxiv.org/abs/2603.02138v1
Date: Mon, 02 Mar 2026 17:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:57.017684
Title: OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens
Title（参考訳）: OmniLottie:パラメータ化ロッティトークンによるベクトルアニメーションの生成
Authors: Yiying Yang, Wei Cheng, Sijin Chen, Honghao Fu, Xianfang Zeng, Yujun Cai, Gang Yu, Xingjun Ma,
Abstract要約: そこで我々は,ファイルから形状,アニメーション機能,制御パラメータを表すコマンドやパラメータの構造化シーケンスに変換する,よく設計されたLottieトークンを導入している。このようなトークン化により、事前学習された視覚言語モデルに基づいてOmniLottieを構築し、マルチモーダルなインターリーブ命令に従い、高品質なベクトルアニメーションを生成することができる。
参考スコア（独自算出の注目度）: 56.699545482716736
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: OmniLottie is a versatile framework that generates high quality vector animations from multi-modal instructions. For flexible motion and visual content control, we focus on Lottie, a light weight JSON formatting for both shapes and animation behaviors representation. However, the raw Lottie JSON files contain extensive invariant structural metadata and formatting tokens, posing significant challenges for learning vector animation generation. Therefore, we introduce a well designed Lottie tokenizer that transforms JSON files into structured sequences of commands and parameters representing shapes, animation functions and control parameters. Such tokenizer enables us to build OmniLottie upon pretrained vision language models to follow multi-modal interleaved instructions and generate high quality vector animations. To further advance research in vector animation generation, we curate MMLottie-2M, a large scale dataset of professionally designed vector animations paired with textual and visual annotations. With extensive experiments, we validate that OmniLottie can produce vivid and semantically aligned vector animations that adhere closely to multi modal human instructions.
Abstract（参考訳）: OmniLottieは多モード命令から高品質なベクトルアニメーションを生成する汎用フレームワークである。フレキシブルなモーションとビジュアルなコンテントコントロールのために、私たちは、形状とアニメーション動作の表現のための軽量JSONフォーマットであるLottieに焦点を当てています。しかし、生のLottie JSONファイルには広範な不変構造メタデータとフォーマットトークンが含まれており、ベクトルアニメーション生成を学ぶ上で重要な課題となっている。そこで我々は,JSONファイルを形状,アニメーション機能,制御パラメータを表すコマンドとパラメータの構造化シーケンスに変換する,よく設計されたLottieトークンを導入している。このようなトークン化により、事前学習された視覚言語モデルに基づいてOmniLottieを構築し、マルチモーダルなインターリーブ命令に従い、高品質なベクトルアニメーションを生成することができる。ベクトルアニメーション生成の研究をさらに進めるために,テキストとビジュアルアノテーションを組み合わせた,プロが設計したベクトルアニメーションの大規模データセットであるMMLottie-2Mをキュレートする。広範にわたる実験により,OmniLottieはマルチモーダル・ヒューマン・インストラクションに密着した鮮明でセマンティックなベクトル・アニメーションを作成できることを確認した。

関連論文リスト

MVAnimate: Enhancing Character Animation with Multi-View Optimization [55.4217617472079]
MVAnimateは,マルチビュー先行情報に基づく動的図形の2次元情報と3次元情報の両方を合成する新しいフレームワークである。提案手法は,複数ビュー先行情報を利用して時間的一貫性と空間的整合性のあるアニメーション出力を生成する。
論文参考訳（メタデータ） (2026-02-09T14:55:21Z)
SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文参考訳（メタデータ） (2025-06-30T10:09:32Z)
MotionDreamer: One-to-Many Motion Synthesis with Localized Generative Masked Transformer [36.43680216948212]
本研究では,ある動きから内部動作パターンを学習するための局所化マスクモデルであるMotionDreamerを提案する。 MotionDreamerは、新しい分布正規化法を用いて、局所的な動きパターンのための堅牢で情報的なコードブックを構築する。総合的な実験で実証されたように、MotionDreamerは、GANや拡散に基づく最先端の手法を、忠実さと多様性の両方で上回っている。
論文参考訳（メタデータ） (2025-04-11T20:27:22Z)
PhysAnimator: Physics-Guided Generative Cartoon Animation [19.124321553546242]
PhysAnimatorは、静的アニメイラストからアニメスティル化されたアニメーションを生成するための新しいアプローチである。アニメの流動性と誇張特性を捉えるため,抽出したメッシュ地形上で画像空間の変形可能な物体シミュレーションを行った。シミュレーションシーケンスからスケッチを抽出し、テクスチャに依存しない表現を生成し、スケッチ誘導映像拡散モデルを用いて高品質なアニメーションフレームを合成する。
論文参考訳（メタデータ） (2025-01-27T22:48:36Z)
LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [52.16008431411513]
LASERは、チューニング不要のLCM駆動のアテンションコントロールフレームワークである。テキスト条件付きイメージ・トゥ・アニメーションベンチマークを提案し,その有効性と有効性を検証する。
論文参考訳（メタデータ） (2024-04-21T07:13:56Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
Real-time Animation Generation and Control on Rigged Models via Large Language Models [50.034712575541434]
本稿では,自然言語入力を用いたリップモデル上でのリアルタイムアニメーション制御と生成のための新しい手法を提案する。大規模言語モデル(LLM)をUnityに組み込んで構造化テキストを出力し、多種多様なリアルなアニメーションに解析する。
論文参考訳（メタデータ） (2023-10-27T01:36:35Z)
Latent Image Animator: Learning to Animate Images via Latent Space Navigation [11.286071873122658]
本稿では,構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator(LIA)を紹介する。 LIAは、潜時空間における線形ナビゲーションにより画像をアニメーションするために合理化され、特に、潜時空間における符号の線形変位によって生成されたビデオ内の動きが構成される。
論文参考訳（メタデータ） (2022-03-17T02:45:34Z)
The Animation Transformer: Visual Correspondence via Segment Matching [2.8387322144750726]
AnT(Animation Transformer)は、トランスフォーマーベースのアーキテクチャを使用して、画像列間のセグメント間の空間的および視覚的関係を学習する。 AnTは、プロのアニメーションのための実用的なMLアシストカラー化を可能にし、カドミウムのクリエイティブツールとして一般に公開されている。
論文参考訳（メタデータ） (2021-09-06T17:23:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。