論文の概要: TransAnimate: Taming Layer Diffusion to Generate RGBA Video
- arxiv url: http://arxiv.org/abs/2503.17934v1
- Date: Sun, 23 Mar 2025 04:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:41.116018
- Title: TransAnimate: Taming Layer Diffusion to Generate RGBA Video
- Title(参考訳): TransAnimate: RGBAビデオを生成するためのレイヤー拡散処理
- Authors: Xuewei Chen, Zhimin Chen, Yiren Song,
- Abstract要約: TransAnimateは、RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークである。
本稿では,方向矢印が動きを定義し,色がスケーリングを調節する対話型モーションガイド制御機構を提案する。
我々は、RGBAビデオデータセットの作成、高品質なゲームエフェクトビデオ、抽出された前景オブジェクト、および合成透明なビデオを統合するパイプラインを開発した。
- 参考スコア(独自算出の注目度): 3.7031943280491997
- License:
- Abstract: Text-to-video generative models have made remarkable advancements in recent years. However, generating RGBA videos with alpha channels for transparency and visual effects remains a significant challenge due to the scarcity of suitable datasets and the complexity of adapting existing models for this purpose. To address these limitations, we present TransAnimate, an innovative framework that integrates RGBA image generation techniques with video generation modules, enabling the creation of dynamic and transparent videos. TransAnimate efficiently leverages pre-trained text-to-transparent image model weights and combines them with temporal models and controllability plugins trained on RGB videos, adapting them for controllable RGBA video generation tasks. Additionally, we introduce an interactive motion-guided control mechanism, where directional arrows define movement and colors adjust scaling, offering precise and intuitive control for designing game effects. To further alleviate data scarcity, we have developed a pipeline for creating an RGBA video dataset, incorporating high-quality game effect videos, extracted foreground objects, and synthetic transparent videos. Comprehensive experiments demonstrate that TransAnimate generates high-quality RGBA videos, establishing it as a practical and effective tool for applications in gaming and visual effects.
- Abstract(参考訳): 近年,テキスト・ビデオ生成モデルは顕著な進歩を遂げている。
しかし、適切なデータセットの不足と、この目的のために既存のモデルを適用する複雑さのために、透明性と視覚効果のためのアルファチャネルでRGBAビデオを生成することは、依然として大きな課題である。
これらの制限に対処するために,RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークであるTransAnimateを提案する。
TransAnimateは、トレーニング済みのテキストから透過的な画像モデルの重みを効率的に利用し、RGBビデオでトレーニングされた時間モデルと制御性プラグインを組み合わせて、制御可能なRGBAビデオ生成タスクに適応する。
さらに,方向矢印が動きを定義し,色がスケーリングを調整し,ゲーム効果を設計するための精密かつ直感的な制御を提供する対話型モーションガイド制御機構を導入する。
データの不足を軽減するため,RGBAビデオデータセットの作成,高品質なゲームエフェクトビデオ,抽出した前景オブジェクト,合成透明ビデオなどのパイプラインを開発した。
総合的な実験により、TransAnimateは高品質なRGBAビデオを生成し、ゲームや視覚効果の応用のための実用的で効果的なツールとして確立した。
関連論文リスト
- VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像から映像までを正確に生成するための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
ベンチマークデータセットの実験では、高品質のビデオコンテンツの生成におけるVidCRAFT3の有効性が示されている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - TransPixeler: Advancing Text-to-Video Generation with Transparency [43.6546902960154]
本稿では,従来のRGB機能を維持しつつ,RGBA生成のための事前学習ビデオモデルを拡張する方法であるTransPixelerを紹介する。
提案手法は,多彩で一貫したRGBA動画を効果的に生成し,VFXやインタラクティブなコンテンツ制作の可能性を高める。
論文 参考訳(メタデータ) (2025-01-06T13:32:16Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。