論文の概要: TransAnimate: Taming Layer Diffusion to Generate RGBA Video
- arxiv url: http://arxiv.org/abs/2503.17934v1
- Date: Sun, 23 Mar 2025 04:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.898784
- Title: TransAnimate: Taming Layer Diffusion to Generate RGBA Video
- Title(参考訳): TransAnimate: RGBAビデオを生成するためのレイヤー拡散処理
- Authors: Xuewei Chen, Zhimin Chen, Yiren Song,
- Abstract要約: TransAnimateは、RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークである。
本稿では,方向矢印が動きを定義し,色がスケーリングを調節する対話型モーションガイド制御機構を提案する。
我々は、RGBAビデオデータセットの作成、高品質なゲームエフェクトビデオ、抽出された前景オブジェクト、および合成透明なビデオを統合するパイプラインを開発した。
- 参考スコア(独自算出の注目度): 3.7031943280491997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generative models have made remarkable advancements in recent years. However, generating RGBA videos with alpha channels for transparency and visual effects remains a significant challenge due to the scarcity of suitable datasets and the complexity of adapting existing models for this purpose. To address these limitations, we present TransAnimate, an innovative framework that integrates RGBA image generation techniques with video generation modules, enabling the creation of dynamic and transparent videos. TransAnimate efficiently leverages pre-trained text-to-transparent image model weights and combines them with temporal models and controllability plugins trained on RGB videos, adapting them for controllable RGBA video generation tasks. Additionally, we introduce an interactive motion-guided control mechanism, where directional arrows define movement and colors adjust scaling, offering precise and intuitive control for designing game effects. To further alleviate data scarcity, we have developed a pipeline for creating an RGBA video dataset, incorporating high-quality game effect videos, extracted foreground objects, and synthetic transparent videos. Comprehensive experiments demonstrate that TransAnimate generates high-quality RGBA videos, establishing it as a practical and effective tool for applications in gaming and visual effects.
- Abstract(参考訳): 近年,テキスト・ビデオ生成モデルは顕著な進歩を遂げている。
しかし、適切なデータセットの不足と、この目的のために既存のモデルを適用する複雑さのために、透明性と視覚効果のためのアルファチャネルでRGBAビデオを生成することは、依然として大きな課題である。
これらの制限に対処するために,RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークであるTransAnimateを提案する。
TransAnimateは、トレーニング済みのテキストから透過的な画像モデルの重みを効率的に利用し、RGBビデオでトレーニングされた時間モデルと制御性プラグインを組み合わせて、制御可能なRGBAビデオ生成タスクに適応する。
さらに,方向矢印が動きを定義し,色がスケーリングを調整し,ゲーム効果を設計するための精密かつ直感的な制御を提供する対話型モーションガイド制御機構を導入する。
データの不足を軽減するため,RGBAビデオデータセットの作成,高品質なゲームエフェクトビデオ,抽出した前景オブジェクト,合成透明ビデオなどのパイプラインを開発した。
総合的な実験により、TransAnimateは高品質なRGBAビデオを生成し、ゲームや視覚効果の応用のための実用的で効果的なツールとして確立した。
関連論文リスト
- Tuning-free Visual Effect Transfer across Videos [91.93897438317397]
RefVFXは、参照ビデオからターゲットビデオや画像への複雑な時間効果をフィードフォワード形式で転送するフレームワークである。
本稿では,三重項の大規模データセットを導入し,各三重項は参照効果ビデオ,入力画像,および対応する出力ビデオから構成される。
RefVFXは視覚的に一貫した時間的コヒーレントな編集を行い、目に見えない効果カテゴリをまたいで一般化し、量的指標と人的嗜好の両方においてプロンプトのみのベースラインを上回ります。
論文 参考訳(メタデータ) (2026-01-12T18:59:32Z) - DRAW2ACT: Turning Depth-Encoded Trajectories into Robotic Demonstration Videos [24.681248200255975]
ビデオモデルは、組み込みAIのための強力な現実世界シミュレータを提供するが、ロボット操作の制御性には制限がある。
入力軌跡から複数の表現を抽出するトラジェクトリ条件付きビデオ生成フレームワークであるDRAW2ACTを提案する。
DRAW2ACTは、既存のベースラインよりも高い操作成功率を示しながら、より優れた視覚的忠実度と一貫性を実現する。
論文 参考訳(メタデータ) (2025-12-16T09:11:36Z) - Wan-Alpha: High-Quality Text-to-Video Generation with Alpha Channel [14.361698701397545]
Wan-Alphaは、RGBとアルファチャネルを共同で学習することで透明なビデオを生成する新しいフレームワークである。
我々のモデルは最先端の手法と比較して、視覚的品質、動きリアリズム、透明性のレンダリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-29T16:08:21Z) - GenCompositor: Generative Video Compositing with Diffusion Transformer [68.00271033575736]
伝統的なパイプラインは、労働力の集中と専門家の協力を必要とし、生産サイクルが長くなり、高い人的コストがかかる。
本課題は, 対象映像に対して, 前景映像の同一性や動作情報を対話的に注入することである。
実験により,本手法は生成ビデオ合成を効果的に実現し,忠実度と一貫性の既存のソリューションよりも優れることが示された。
論文 参考訳(メタデータ) (2025-09-02T16:10:13Z) - Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。
我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文 参考訳(メタデータ) (2025-08-03T10:03:56Z) - RoboTransfer: Geometry-Consistent Video Diffusion for Robotic Visual Policy Transfer [33.178540405656676]
RoboTransferは、ロボットデータ合成のための拡散ベースのビデオ生成フレームワークである。
背景属性やオブジェクト属性などのシーンコンポーネントを明示的に制御するマルチビュー幾何を統合している。
RoboTransferは、幾何的一貫性と視覚的忠実度を向上したマルチビュービデオを生成することができる。
論文 参考訳(メタデータ) (2025-05-29T07:10:03Z) - VidCRAFT3: Camera, Object, and Lighting Control for Image-to-Video Generation [62.64811405314847]
VidCRAFT3は、画像から映像までを正確に生成するための新しいフレームワークである。
カメラの動き、物体の動き、照明方向を同時に制御できる。
ベンチマークデータセットの実験では、高品質のビデオコンテンツの生成におけるVidCRAFT3の有効性が示されている。
論文 参考訳(メタデータ) (2025-02-11T13:11:59Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - TransPixeler: Advancing Text-to-Video Generation with Transparency [43.6546902960154]
本稿では,従来のRGB機能を維持しつつ,RGBA生成のための事前学習ビデオモデルを拡張する方法であるTransPixelerを紹介する。
提案手法は,多彩で一貫したRGBA動画を効果的に生成し,VFXやインタラクティブなコンテンツ制作の可能性を高める。
論文 参考訳(メタデータ) (2025-01-06T13:32:16Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - TVG: A Training-free Transition Video Generation Method with Diffusion Models [12.037716102326993]
遷移ビデオはメディア制作において重要な役割を担い、視覚的物語の流れとコヒーレンスを高める。
拡散モデルに基づくビデオ生成の最近の進歩は、トランジションを作成する新しい可能性を提供するが、フレーム間の関係モデリングの貧弱や突然のコンテンツ変更といった課題に直面している。
本稿では,これらの制約に対処するビデオレベルの拡散モデルを用いて,新たなトレーニング不要な遷移ビデオ生成(TVG)手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T00:33:14Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。