論文の概要: TransText: Transparency Aware Image-to-Video Typography Animation
- arxiv url: http://arxiv.org/abs/2603.17944v1
- Date: Wed, 18 Mar 2026 17:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.84522
- Title: TransText: Transparency Aware Image-to-Video Typography Animation
- Title(参考訳): TransText: 画像とビデオのタイポグラフィーアニメーションを透過的に認識する
- Authors: Fei Zhang, Zijian Zhou, Bohao Tang, Sen He, Hang Li, Zhe Wang, Soubhik Sanyal, Pengfei Liu, Viktar Atliha, Tao Xiang, Frost Xu, Semih Gunel,
- Abstract要約: 層認識型テキスト(グリフ)アニメーションに画像から映像モデルを適用するための第1の手法を提案する。
外観と透明性を協調的にモデル化する新しいAlpha-as-RGBパラダイムに基づくフレームワークであるTransTextを提案する。
実験の結果,TransTextはベースラインを著しく上回り,コヒーレントで高忠実度なアニメーションを生成することがわかった。
- 参考スコア(独自算出の注目度): 35.1650602838868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce the first method, to the best of our knowledge, for adapting image-to-video models to layer-aware text (glyph) animation, a capability critical for practical dynamic visual design. Existing approaches predominantly handle the transparency-encoding (alpha channel) as an extra latent dimension appended to the RGB space, necessitating the reconstruction of the underlying RGB-centric variational autoencoder (VAE). However, given the scarcity of high-quality transparent glyph data, retraining the VAE is computationally expensive and may erode the robust semantic priors learned from massive RGB corpora, potentially leading to latent pattern mixing. To mitigate these limitations, we propose TransText, a framework based on a novel Alpha-as-RGB paradigm to jointly model appearance and transparency without modifying the pre-trained generative manifold. TransText embeds the alpha channel as an RGB-compatible visual signal through latent spatial concatenation, explicitly ensuring strict cross-modal (RGB-and-Alpha) consistency while preventing feature entanglement. Our experiments demonstrate that TransText significantly outperforms baselines, generating coherent, high-fidelity transparent animations with diverse, fine-grained effects.
- Abstract(参考訳): 本稿では,映像から映像へのモデルをレイヤー対応のテキスト(グリフ)アニメーションに適応させる手法について紹介する。
既存のアプローチは主に透過符号化(アルファチャネル)をRGB空間に追加の潜伏次元として扱い、基礎となるRGB中心の変分オートエンコーダ(VAE)の再構築を必要とする。
しかし、高品質な透明グリフデータの不足を考えると、VAEの再トレーニングは計算コストが高く、巨大なRGBコーパスから学んだ堅牢なセマンティックな先行性を損なう可能性があり、潜在パターンの混合につながる可能性がある。
これらの制約を緩和するために,新たに導入されたAlpha-as-RGBパラダイムに基づくフレームワークであるTransTextを提案し,事前学習された生成多様体を変更することなく外観と透明性を共同でモデル化する。
TransTextは、遅延空間連結により、アルファチャネルをRGB互換の視覚信号として埋め込み、特徴の絡み合いを防止しつつ、厳密なクロスモーダル(RGB-and-Alpha)一貫性を明示的に保証する。
実験の結果,TransTextはベースラインを著しく上回り,多彩できめ細かな効果を持つコヒーレントで高忠実な透明なアニメーションを生成することがわかった。
関連論文リスト
- RAW-Flow: Advancing RGB-to-RAW Image Reconstruction with Deterministic Latent Flow Matching [55.03149221192589]
本稿では,RGBとRAW表現のギャップを埋めるためにRAW-Flowという新しいフレームワークを提案する。
また、階層的なRGB機能をフロー推定プロセスに注入する、大規模コンテキストガイダンスモジュールも導入する。
RAW-Flowは、定量的にも視覚的にも最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2026-01-28T08:27:38Z) - Wan-Alpha: High-Quality Text-to-Video Generation with Alpha Channel [14.361698701397545]
Wan-Alphaは、RGBとアルファチャネルを共同で学習することで透明なビデオを生成する新しいフレームワークである。
我々のモデルは最先端の手法と比較して、視覚的品質、動きリアリズム、透明性のレンダリングにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-29T16:08:21Z) - Trans-Adapter: A Plug-and-Play Framework for Transparent Image Inpainting [60.062438188868306]
既存の画像の塗装法は、RGB画像専用に設計されている。
Trans-Adapterは、拡散ベースのインペイントモデルで透過的な画像を直接処理できるプラグイン・アンド・プレイアダプタである。
論文 参考訳(メタデータ) (2025-08-01T22:27:21Z) - AlphaVAE: Unified End-to-End RGBA Image Reconstruction and Generation with Alpha-Aware Representation Learning [32.798523698352916]
ALPHAは、標準RGBメトリクスを標準背景のアルファブレンディングにより4チャンネル画像に適応する最初の総合RGBAベンチマークである。
さらに、専用アルファチャンネルを組み込むことで、事前訓練されたRGB VAEを拡張した、統一されたエンドツーエンドRGBA VAEであるALPHAVAEを紹介する。
我々のRGBA VAEは、従来の1Mに比べて8K画像のみに基づいて訓練されており、PSNRでは+4.9dB、再構築時にはLayerDiffuseよりも+3.2%のSSIM向上を実現している。
論文 参考訳(メタデータ) (2025-07-12T14:53:42Z) - TransPixeler: Advancing Text-to-Video Generation with Transparency [43.6546902960154]
本稿では,従来のRGB機能を維持しつつ,RGBA生成のための事前学習ビデオモデルを拡張する方法であるTransPixelerを紹介する。
提案手法は,多彩で一貫したRGBA動画を効果的に生成し,VFXやインタラクティブなコンテンツ制作の可能性を高める。
論文 参考訳(メタデータ) (2025-01-06T13:32:16Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。