論文の概要: Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.16224v1
- Date: Mon, 29 Jan 2024 15:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:30:22.982831
- Title: Diffutoon: High-Resolution Editable Toon Shading via Diffusion Models
- Title(参考訳): Diffutoon: 拡散モデルによる高分解能トーンシェーディング
- Authors: Zhongjie Duan, Chengyu Wang, Cen Chen, Weining Qian, Jun Huang
- Abstract要約: トーンシェーディング(Toon Shading)は、アニメーションの非フォトリアリスティックレンダリングタスクの一種である。
Diffutoonは、鮮明で高解像度で拡張された動画をアニメ形式でレンダリングすることができる。
- 参考スコア(独自算出の注目度): 25.903156244291168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Toon shading is a type of non-photorealistic rendering task of animation. Its
primary purpose is to render objects with a flat and stylized appearance. As
diffusion models have ascended to the forefront of image synthesis
methodologies, this paper delves into an innovative form of toon shading based
on diffusion models, aiming to directly render photorealistic videos into anime
styles. In video stylization, extant methods encounter persistent challenges,
notably in maintaining consistency and achieving high visual quality. In this
paper, we model the toon shading problem as four subproblems: stylization,
consistency enhancement, structure guidance, and colorization. To address the
challenges in video stylization, we propose an effective toon shading approach
called \textit{Diffutoon}. Diffutoon is capable of rendering remarkably
detailed, high-resolution, and extended-duration videos in anime style. It can
also edit the content according to prompts via an additional branch. The
efficacy of Diffutoon is evaluated through quantitive metrics and human
evaluation. Notably, Diffutoon surpasses both open-source and closed-source
baseline approaches in our experiments. Our work is accompanied by the release
of both the source code and example videos on Github (Project page:
https://ecnu-cilab.github.io/DiffutoonProjectPage/).
- Abstract(参考訳): トーンシェーディング(Toon Shading)は、アニメーションの非フォトリアリスティックレンダリングタスクの一種である。
その主な目的は、平らでスタイリッシュな外観でオブジェクトを描画することである。
拡散モデルが画像合成手法の最前線に昇るにつれて、本論文は拡散モデルに基づくtoonシェーディングの革新的な形態へと発展し、フォトリアリスティックなビデオをアニメスタイルに直接レンダリングすることを目指している。
ビデオスタイリングにおいて、既存の手法は、特に一貫性の維持と高い視覚的品質の達成において、永続的な課題に直面する。
本稿では,トーンシェーディング問題をスタイライゼーション,一貫性強化,構造指導,着色の4つのサブプロブレムとしてモデル化する。
ビデオスタイライゼーションの課題に対処するため,我々は, \textit{diffutoon} と呼ばれる効果的なトーンシェーディング手法を提案する。
Diffutoonは、鮮明で高解像度で拡張された動画をアニメ形式でレンダリングすることができる。
また、追加のブランチを通じてプロンプトに応じてコンテンツを編集することもできる。
Diffutoonの有効性は、定量測定と人的評価によって評価される。
特にdiffutoonは、実験でオープンソースとクローズドソースの両方のベースラインアプローチを上回っています。
私たちの作業にはGithubのソースコードとサンプルビデオ(プロジェクトページ: https://ecnu-cilab.github.io/DiffutoonProjectPage/)の両方が添付されています。
関連論文リスト
- Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - RefFusion: Reference Adapted Diffusion Models for 3D Scene Inpainting [63.567363455092234]
RefFusionは,画像インペイント拡散モデルのマルチスケールパーソナライズに基づく,新しい3Dインペイント手法である。
我々のフレームワークは、制御性を維持しながら、オブジェクト除去の最先端の成果を達成する。
論文 参考訳(メタデータ) (2024-04-16T17:50:02Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - APISR: Anime Production Inspired Real-World Anime Super-Resolution [15.501488335115269]
我々は,手描きフレームの繰り返し使用により,映像ネットワークやデータセットはアニメSRでは不要であると主張している。
代わりに,ビデオソースから最も圧縮され,最も情報に富んだフレームを選択することにより,アニメ画像収集パイプラインを提案する。
提案手法は,公開ベンチマークによる広範囲な実験により評価され,最先端のアニメデータセット学習手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-03T19:52:43Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - AnimeDiffusion: Anime Face Line Drawing Colorization via Diffusion
Models [24.94532405404846]
本稿では,アニメの顔線描画色を自動生成する拡散モデルを用いたAnimeDiffusionという新しい手法を提案する。
我々は31696のトレーニングデータと579のテストデータを含むアニメの顔線描画カラー化ベンチマークデータセットを実行する。
アニメフェース描画のカラー化において,AnimeDiffusionは最先端のGANモデルよりも優れることを示す。
論文 参考訳(メタデータ) (2023-03-20T14:15:23Z) - PointAvatar: Deformable Point-based Head Avatars from Videos [103.43941945044294]
PointAvatarは変形可能な点ベースの表現で、原色を固有アルベドと正規依存シェーディングに分解する。
提案手法は,複数の音源からのモノクロビデオを用いて,アニマタブルな3Dアバターを生成することができることを示す。
論文 参考訳(メタデータ) (2022-12-16T10:05:31Z) - SINE: SINgle Image Editing with Text-to-Image Diffusion Models [10.67527134198167]
本研究の目的は、単一画像編集の問題に対処することである。
分類器フリーガイダンスに基づく新しいモデルベースガイダンスを提案する。
スタイルの変更、コンテンツの追加、オブジェクト操作など、有望な編集機能を示す。
論文 参考訳(メタデータ) (2022-12-08T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。