論文の概要: Wan-Alpha: High-Quality Text-to-Video Generation with Alpha Channel
- arxiv url: http://arxiv.org/abs/2509.24979v2
- Date: Tue, 30 Sep 2025 06:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.418788
- Title: Wan-Alpha: High-Quality Text-to-Video Generation with Alpha Channel
- Title(参考訳): Wan-Alpha:Alphaチャネルを用いた高品質テキスト・ビデオ生成
- Authors: Haotian Dong, Wenjing Wang, Chen Li, Di Lin,
- Abstract要約: Wan-Alphaは、RGBとアルファチャネルを共同で学習することで透明なビデオを生成する新しいフレームワークである。
我々のモデルは最先端の手法と比較して、視覚的品質、動きリアリズム、透明性のレンダリングにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.361698701397545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGBA video generation, which includes an alpha channel to represent transparency, is gaining increasing attention across a wide range of applications. However, existing methods often neglect visual quality, limiting their practical usability. In this paper, we propose Wan-Alpha, a new framework that generates transparent videos by learning both RGB and alpha channels jointly. We design an effective variational autoencoder (VAE) that encodes the alpha channel into the RGB latent space. Then, to support the training of our diffusion transformer, we construct a high-quality and diverse RGBA video dataset. Compared with state-of-the-art methods, our model demonstrates superior performance in visual quality, motion realism, and transparency rendering. Notably, our model can generate a wide variety of semi-transparent objects, glowing effects, and fine-grained details such as hair strands. The released model is available on our website: https://donghaotian123.github.io/Wan-Alpha/.
- Abstract(参考訳): 透明性を表すアルファチャネルを含むRGBAビデオ生成は、幅広いアプリケーションで注目を集めている。
しかし、既存の手法はしばしば視覚的品質を無視し、実用的使用性を制限している。
本稿では,RGBとαチャネルを共同で学習することで,透過的な映像を生成する新しいフレームワークであるWan-Alphaを提案する。
RGBラテント空間にアルファチャネルを符号化する有効な変分オートエンコーダ(VAE)を設計する。
そこで,拡散変圧器の訓練を支援するため,高品質で多様なRGBAビデオデータセットを構築した。
我々のモデルは最先端の手法と比較して、視覚的品質、動きリアリズム、透明性のレンダリングにおいて優れた性能を示す。
特に,本モデルでは,多種多様な半透明物体,発光効果,ヘアストランドなどの微細な細部を生成できる。
リリースされたモデルは、私たちのWebサイト(https://donghaotian123.github.io/Wan-Alpha/)で利用可能です。
関連論文リスト
- AlphaVAE: Unified End-to-End RGBA Image Reconstruction and Generation with Alpha-Aware Representation Learning [32.798523698352916]
ALPHAは、標準RGBメトリクスを標準背景のアルファブレンディングにより4チャンネル画像に適応する最初の総合RGBAベンチマークである。
さらに、専用アルファチャンネルを組み込むことで、事前訓練されたRGB VAEを拡張した、統一されたエンドツーエンドRGBA VAEであるALPHAVAEを紹介する。
我々のRGBA VAEは、従来の1Mに比べて8K画像のみに基づいて訓練されており、PSNRでは+4.9dB、再構築時にはLayerDiffuseよりも+3.2%のSSIM向上を実現している。
論文 参考訳(メタデータ) (2025-07-12T14:53:42Z) - TransAnimate: Taming Layer Diffusion to Generate RGBA Video [3.7031943280491997]
TransAnimateは、RGBA画像生成技術とビデオ生成モジュールを統合する革新的なフレームワークである。
本稿では,方向矢印が動きを定義し,色がスケーリングを調節する対話型モーションガイド制御機構を提案する。
我々は、RGBAビデオデータセットの作成、高品質なゲームエフェクトビデオ、抽出された前景オブジェクト、および合成透明なビデオを統合するパイプラインを開発した。
論文 参考訳(メタデータ) (2025-03-23T04:27:46Z) - Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT [98.56372305225271]
Lumina-Nextは、Next-DiTによる画像生成において、例外的なパフォーマンスを実現している。
Lumina-VideoにはマルチスケールのNext-DiTアーキテクチャが組み込まれており、複数のパッチを共同で学習している。
本稿では,Next-DiTに基づく音声合成モデルであるLumina-V2Aを提案する。
論文 参考訳(メタデータ) (2025-02-10T18:58:11Z) - TransPixeler: Advancing Text-to-Video Generation with Transparency [43.6546902960154]
本稿では,従来のRGB機能を維持しつつ,RGBA生成のための事前学習ビデオモデルを拡張する方法であるTransPixelerを紹介する。
提案手法は,多彩で一貫したRGBA動画を効果的に生成し,VFXやインタラクティブなコンテンツ制作の可能性を高める。
論文 参考訳(メタデータ) (2025-01-06T13:32:16Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。