論文の概要: Scenimefy: Learning to Craft Anime Scene via Semi-Supervised
Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2308.12968v1
- Date: Thu, 24 Aug 2023 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 12:46:21.597332
- Title: Scenimefy: Learning to Craft Anime Scene via Semi-Supervised
Image-to-Image Translation
- Title(参考訳): Scenimefy: 半監督画像から画像への変換によるアニメシーンの制作を学ぶ
- Authors: Yuxin Jiang, Liming Jiang, Shuai Yang, Chen Change Loy
- Abstract要約: そこで我々は,新しい半教師付き画像-画像間翻訳フレームワークであるScenimefyを提案する。
提案手法は,構造に一貫性のある擬似ペアデータによる学習を導く。
スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。
- 参考スコア(独自算出の注目度): 75.91455714614966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic high-quality rendering of anime scenes from complex real-world
images is of significant practical value. The challenges of this task lie in
the complexity of the scenes, the unique features of anime style, and the lack
of high-quality datasets to bridge the domain gap. Despite promising attempts,
previous efforts are still incompetent in achieving satisfactory results with
consistent semantic preservation, evident stylization, and fine details. In
this study, we propose Scenimefy, a novel semi-supervised image-to-image
translation framework that addresses these challenges. Our approach guides the
learning with structure-consistent pseudo paired data, simplifying the pure
unsupervised setting. The pseudo data are derived uniquely from a
semantic-constrained StyleGAN leveraging rich model priors like CLIP. We
further apply segmentation-guided data selection to obtain high-quality pseudo
supervision. A patch-wise contrastive style loss is introduced to improve
stylization and fine details. Besides, we contribute a high-resolution anime
scene dataset to facilitate future research. Our extensive experiments
demonstrate the superiority of our method over state-of-the-art baselines in
terms of both perceptual quality and quantitative performance.
- Abstract(参考訳): 複雑な実世界の画像からのアニメシーンの自動高画質レンダリングは、重要な実用的価値である。
このタスクの課題は、シーンの複雑さ、アニメスタイルのユニークな特徴、ドメインギャップを埋めるための高品質なデータセットの欠如にある。
有望な試みにもかかわらず、以前の試みは、一貫性のあるセマンティックな保存、明らかなスタイリゼーション、詳細といった満足な結果を達成するには相変わらず無力である。
本研究では,これらの課題に対処する半教師付き画像・画像翻訳フレームワークであるScenimefyを提案する。
このアプローチでは,構造一貫性のある擬似ペアデータによる学習を指導し,教師なし設定を単純化する。
擬似データは、CLIPのようなリッチなモデルプリエントを活用するセマンティック制約付きStyleGANから一意に導出される。
さらにセグメント化誘導データの選択を適用し,高品質な疑似監視を行う。
スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。
さらに,今後の研究を促進するために,高解像度のアニメシーンデータセットを提供する。
提案手法は,知覚的品質と定量的性能の両方において,最先端のベースラインよりも優れていることを示す。
関連論文リスト
- Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients [0.0]
本稿では,Contrastive Unpaired Translation (CUT)モデルに基づく,教師なし画像から画像への変換手法を提案する。
この新しいアプローチは、セマンティックラベルなしでも画像のセマンティック構造を確実に保存する。
本手法は,GTA5データセットから都市景観データセットのリアルな都市シーンへの合成ゲーム環境の変換について検討した。
論文 参考訳(メタデータ) (2024-09-24T12:44:27Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Harnessing the Conditioning Sensorium for Improved Image Translation [2.9631016562930546]
マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
論文 参考訳(メタデータ) (2021-10-13T02:07:43Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。