論文の概要: ILDiff: Generate Transparent Animated Stickers by Implicit Layout Distillation
- arxiv url: http://arxiv.org/abs/2412.20901v1
- Date: Mon, 30 Dec 2024 12:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:06.080007
- Title: ILDiff: Generate Transparent Animated Stickers by Implicit Layout Distillation
- Title(参考訳): ILDiff: 急激なレイアウト蒸留による透明アニメーションステッカーの生成
- Authors: Ting Zhang, Zhiqiang Yuan, Yeshuang Zhu, Jinchao Zhang,
- Abstract要約: 高品質のアニメーションステッカーは通常透明なチャンネルを含むが、現在のビデオ生成モデルでは無視されることが多い。
微細なアニメーション透過チャネルを生成するために、既存の手法はビデオマッチングアルゴリズムと拡散ベースアルゴリズムに大別できる。
本稿では, 暗黙的レイアウト蒸留による透過チャネル生成のためのILDiff法を提案する。
- 参考スコア(独自算出の注目度): 17.449524943353904
- License:
- Abstract: High-quality animated stickers usually contain transparent channels, which are often ignored by current video generation models. To generate fine-grained animated transparency channels, existing methods can be roughly divided into video matting algorithms and diffusion-based algorithms. The methods based on video matting have poor performance in dealing with semi-open areas in stickers, while diffusion-based methods are often used to model a single image, which will lead to local flicker when modeling animated stickers. In this paper, we firstly propose an ILDiff method to generate animated transparent channels through implicit layout distillation, which solves the problems of semi-open area collapse and no consideration of temporal information in existing methods. Secondly, we create the Transparent Animated Sticker Dataset (TASD), which contains 0.32M high-quality samples with transparent channel, to provide data support for related fields. Extensive experiments demonstrate that ILDiff can produce finer and smoother transparent channels compared to other methods such as Matting Anything and Layer Diffusion. Our code and dataset will be released at link https://xiaoyuan1996.github.io.
- Abstract(参考訳): 高品質のアニメーションステッカーは通常透明なチャンネルを含むが、現在のビデオ生成モデルでは無視されることが多い。
微細なアニメーション透過チャネルを生成するために、既存の手法はビデオマッチングアルゴリズムと拡散ベースアルゴリズムに大別できる。
ビデオ・マッティングに基づく手法は、ステッカーの半オープン領域を扱う上では性能が劣るが、拡散ベースの手法は単一の画像をモデル化するためにしばしば用いられ、アニメーション・ステッカーをモデル化する際には局所的なフリックが生じる。
本稿では,まず,半開放領域の崩壊の問題を解消し,既存手法の時間的情報を考慮することなく,暗黙的レイアウト蒸留によりアニメーションな透過チャネルを生成するILDiff法を提案する。
次に,透過型アニメーションステッカーデータセット(TASD, Transparent Animated Sticker Dataset)を作成した。
大規模な実験により、ILDiffはMatting AnythingやLayer Diffusionといった他の方法と比較して、より微細でスムーズな透過チャネルを作成できることが示された。
私たちのコードとデータセットは、https://xiaoyuan 1996.github.io.comで公開されます。
関連論文リスト
- Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models [56.691967706131]
我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。
この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。
本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
論文 参考訳(メタデータ) (2024-10-21T16:19:34Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation [44.92712228326116]
ビデオのアウトペイントは、入力されたビデオのビューポートの外でビデオコンテンツを生成することを目的とした、難しい作業である。
入力特化適応によるMOTIAマスタリングビデオアウトペイントについて紹介する。
MoTIAは入力特異的適応とパターン認識の露呈という2つの主要なフェーズから構成される。
論文 参考訳(メタデータ) (2024-03-20T16:53:45Z) - Transparent Image Layer Diffusion using Latent Transparency [30.77316047044662]
本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。
この手法は,アルファチャネル透過性を事前学習した潜伏拡散モデルの潜伏多様体に符号化する「潜伏透過性」を学習する。
これは、付加された透明性を潜在オフセットとして調節することにより、大きな拡散モデルの生産可能な品質を保っている。
論文 参考訳(メタデータ) (2024-02-27T01:19:53Z) - LatentMan: Generating Consistent Animated Characters using Image Diffusion Models [44.18315132571804]
テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。
提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion [57.90404618420159]
本稿では3次元モーション生成手法であるマルチビューアンセストラルサンプリング(MAS)を紹介する。
MASは、同じ3Dモーションの異なるビューを表す複数の2Dモーションシーケンスを同時に認知することで機能する。
プロバスケットボールの操り方を描いたビデオから得られた2DポーズデータをMASで実証する。
論文 参考訳(メタデータ) (2023-10-23T09:05:18Z) - Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。