論文の概要: NijiGAN: Transform What You See into Anime with Contrastive Semi-Supervised Learning and Neural Ordinary Differential Equations
- arxiv url: http://arxiv.org/abs/2412.19455v1
- Date: Fri, 27 Dec 2024 04:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:16.222230
- Title: NijiGAN: Transform What You See into Anime with Contrastive Semi-Supervised Learning and Neural Ordinary Differential Equations
- Title(参考訳): NijiGAN: 対照的な半教師付き学習とニューラル常微分方程式によるアニメへの変換
- Authors: Kevin Putra Santoso, Anny Yuniarti, Dwiyasa Nakula, Dimas Prihady Setyawan, Adam Haidar Azizi, Jeany Aurellia P. Dewati, Farah Dhia Fadhila, Maria T. Elvara Bumbungan,
- Abstract要約: 本研究では,イメージ・ツー・イメージ翻訳の新しいモデルであるNijiGANを紹介する。
現実のシーンを、Scenimefyのパラメータの半分を使って高忠実なアニメヴィジュアライズに変換する。
Scenimefyを通じて生成された擬似ペアデータを使って教師付きトレーニングを行い、低品質のペアデータへの依存を排除している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Generative AI has transformed the animation industry. Several models have been developed for image-to-image translation, particularly focusing on converting real-world images into anime through unpaired translation. Scenimefy, a notable approach utilizing contrastive learning, achieves high fidelity anime scene translation by addressing limited paired data through semi-supervised training. However, it faces limitations due to its reliance on paired data from a fine-tuned StyleGAN in the anime domain, often producing low-quality datasets. Additionally, Scenimefy's high parameter architecture presents opportunities for computational optimization. This research introduces NijiGAN, a novel model incorporating Neural Ordinary Differential Equations (NeuralODEs), which offer unique advantages in continuous transformation modeling compared to traditional residual networks. NijiGAN successfully transforms real-world scenes into high fidelity anime visuals using half of Scenimefy's parameters. It employs pseudo-paired data generated through Scenimefy for supervised training, eliminating dependence on low-quality paired data and improving the training process. Our comprehensive evaluation includes ablation studies, qualitative, and quantitative analysis comparing NijiGAN to similar models. The testing results demonstrate that NijiGAN produces higher-quality images compared to AnimeGAN, as evidenced by a Mean Opinion Score (MOS) of 2.192, it surpasses AnimeGAN's MOS of 2.160. Furthermore, our model achieved a Frechet Inception Distance (FID) score of 58.71, outperforming Scenimefy's FID score of 60.32. These results demonstrate that NijiGAN achieves competitive performance against existing state-of-the-arts, especially Scenimefy as the baseline model.
- Abstract(参考訳): ジェネレーティブAIはアニメーション産業を変革した。
画像から画像への変換のためのいくつかのモデルが開発されており、特に現実の画像を未完成の翻訳でアニメに変換することに焦点を当てている。
コントラスト学習を利用した顕著なアプローチであるScenimefyは、半教師付きトレーニングを通じて限られたペアデータに対処することで、高忠実なアニメシーン翻訳を実現する。
しかし、アニメドメインの微調整されたStyleGANのペアデータに依存するため、しばしば低品質のデータセットを生成するため、制限に直面している。
さらに、Scenimefyの高パラメータアーキテクチャは、計算最適化の機会を与える。
本研究では,ニューラル正規微分方程式(NeuralODE)を組み込んだ新しいモデルであるNijiGANを紹介する。
NijiGANは、Senimefyのパラメータの半分を使って、現実世界のシーンを高忠実なアニメヴィジュアルに変換することに成功した。
Scenimefyを通じて生成された擬似ペアデータを使用して教師付きトレーニングを行い、低品質のペアデータへの依存を排除し、トレーニングプロセスを改善する。
我々は,NijiGANを類似モデルと比較するアブレーション研究,質的,定量的分析を含む総合評価を行った。
実験の結果、NijiGANはAnimeGANよりも高品質な画像を生成しており、2.192の平均オピニオンスコア(MOS)で証明されているように、AnimeGANの2.160のMOSを上回っている。
さらに,Frechet Inception Distance(FID)スコア58.71を達成し,ScenimefyのFIDスコア60.32を上回った。
これらの結果から,NijiGANは既存の最先端技術,特にScenimefyをベースラインモデルとして,競争力を発揮することが示された。
関連論文リスト
- The Dawn of KAN in Image-to-Image (I2I) Translation: Integrating Kolmogorov-Arnold Networks with GANs for Unpaired I2I Translation [0.0]
Kolmogorov-Arnold Network (KAN)は、生成AIにおける多層パーセプトロン(MLP)を効果的に置き換えることができる。
より広範な生成型AIドメインにおいて、Kanは貴重なコンポーネントになり得る、と研究は示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:26:12Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Bi-LORA: A Vision-Language Approach for Synthetic Image Detection [14.448350657613364]
生成逆数ネットワーク(GAN)や拡散モデル(DM)のような深層画像合成技術は、非常に現実的な画像を生成する時代に定着してきた。
本稿では、視覚言語モデル(VLM)のゼロショット特性と相まって、視覚と言語の間の強力な収束能力から着想を得る。
我々は,VLMと低ランク適応(LORA)チューニング技術を組み合わせたBi-LORAと呼ばれる革新的な手法を導入し,未知のモデル生成画像に対する合成画像検出の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-02T13:54:22Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Scenimefy: Learning to Craft Anime Scene via Semi-Supervised
Image-to-Image Translation [75.91455714614966]
そこで我々は,新しい半教師付き画像-画像間翻訳フレームワークであるScenimefyを提案する。
提案手法は,構造に一貫性のある擬似ペアデータによる学習を導く。
スタイル化と細部を改善するために、パッチワイドのコントラストスタイルロスが導入されている。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - UVCGAN v2: An Improved Cycle-Consistent GAN for Unpaired Image-to-Image
Translation [10.689788782893096]
I2I (unpaired image-to-image) 翻訳技術は、完全に教師なしの方法で2つのデータ領域間のマッピングを求める。
DMはFrechet distance(FID)の観点からI2I翻訳ベンチマークの最先端を保っている
この研究は、最近のUVCGANモデルを改善し、モデルアーキテクチャとトレーニング手順の近代化に資する。
論文 参考訳(メタデータ) (2023-03-28T19:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。