論文の概要: PTTA: A Pure Text-to-Animation Framework for High-Quality Creation
- arxiv url: http://arxiv.org/abs/2512.18614v1
- Date: Sun, 21 Dec 2025 06:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.422611
- Title: PTTA: A Pure Text-to-Animation Framework for High-Quality Creation
- Title(参考訳): PTTA: 高品質創造のための純粋テキスト・アニメーションフレームワーク
- Authors: Ruiqi Chen, Kaitong Cai, Yijia Fan, Keze Wang,
- Abstract要約: 本稿では,高品質なアニメーション作成のための純粋テキスト・アニメーション・フレームワークPTTAを提案する。
まず,小型だが高品質なアニメーションビデオとテキスト記述のデータセットを構築した。
予め訓練されたテキスト・ビデオモデルであるHunyuanVideoをベースとして,アニメーションスタイルに適応するための微調整を行う。
- 参考スコア(独自算出の注目度): 11.264791177658203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional animation production involves complex pipelines and significant manual labor cost. While recent video generation models such as Sora, Kling, and CogVideoX achieve impressive results on natural video synthesis, they exhibit notable limitations when applied to animation generation. Recent efforts, such as AniSora, demonstrate promising performance by fine-tuning image-to-video models for animation styles, yet analogous exploration in the text-to-video setting remains limited. In this work, we present PTTA, a pure text-to-animation framework for high-quality animation creation. We first construct a small-scale but high-quality paired dataset of animation videos and textual descriptions. Building upon the pretrained text-to-video model HunyuanVideo, we perform fine-tuning to adapt it to animation-style generation. Extensive visual evaluations across multiple dimensions show that the proposed approach consistently outperforms comparable baselines in animation video synthesis.
- Abstract(参考訳): 伝統的なアニメーション制作には複雑なパイプラインとかなりの手作業のコストが伴う。
Sora、Kling、CogVideoXといった最近のビデオ生成モデルは、自然なビデオ合成において印象的な結果をもたらすが、アニメーション生成に適用した場合に顕著な制限が現れる。
AniSoraのような最近の取り組みは、アニメーションスタイルの微調整による有望なパフォーマンスを示すものであるが、テキスト・ビデオ・セッティングにおける類似した探索は依然として限られている。
本研究では,高品質なアニメーション作成のための純粋テキスト・アニメーション・フレームワークPTTAを提案する。
まず,小型だが高品質なアニメーションビデオとテキスト記述のデータセットを構築した。
予め訓練されたテキスト・ビデオモデルであるHunyuanVideoをベースとして,アニメーションスタイルに適応するための微調整を行う。
複数の次元にわたる広範囲な視覚的評価は、提案手法がアニメーションビデオ合成において、同等のベースラインを一貫して上回っていることを示している。
関連論文リスト
- DreamDance: Animating Character Art via Inpainting Stable Gaussian Worlds [64.53681498600065]
ドリームダンス(DreamDance)は、安定的で一貫したキャラクタと、正確なカメラ軌跡を条件としたシーンの動きを生成できるアニメーションフレームワークである。
我々は、背景品質を高めつつ、動的キャラクタをシーンビデオに注入する、ポーズ対応ビデオ塗装モデルを訓練する。
論文 参考訳(メタデータ) (2025-05-30T15:54:34Z) - AniSora: Exploring the Frontiers of Animation Video Generation in the Sora Era [20.670217061810614]
本稿では,アニメーション映像生成のための総合システムAniSoraを提案する。
1000万以上の高品質なデータでデータ処理パイプラインがサポートしています。
また,様々なアニメーションビデオの評価ベンチマークを収集し,特にアニメーションビデオ生成のための指標を開発した。
論文 参考訳(メタデータ) (2024-12-13T16:24:58Z) - UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image Animation [53.16986875759286]
We present a UniAnimate framework to enable efficient and long-term human video generation。
我々は、姿勢案内やノイズビデオとともに参照画像を共通の特徴空間にマッピングする。
また、ランダムノイズ入力と第1フレーム条件入力をサポートする統一ノイズ入力を提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:10Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Deep Animation Video Interpolation in the Wild [115.24454577119432]
本研究では,アニメーション・ビデオ・コードに関する問題を初めて形式的に定義・検討する。
効果的なフレームワークであるAnimeInterpを2つの専用モジュールで粗密に提案します。
特にAnimeInterpは、野生のアニメーションシナリオに良好な知覚品質と堅牢性を示します。
論文 参考訳(メタデータ) (2021-04-06T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。