論文の概要: SSIMBaD: Sigma Scaling with SSIM-Guided Balanced Diffusion for AnimeFace Colorization
- arxiv url: http://arxiv.org/abs/2506.04283v1
- Date: Wed, 04 Jun 2025 07:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.324986
- Title: SSIMBaD: Sigma Scaling with SSIM-Guided Balanced Diffusion for AnimeFace Colorization
- Title(参考訳): SSIM-Guided Balanced Diffusion を用いたSSIMBaD: Sigma Scaling for AnimeFace Colorization
- Authors: Junpyo Seo, Hanbin Koo, Jieun Yook, Byung-Ro Moon,
- Abstract要約: 本稿では,アニメスタイルの顔スケッチの自動着色のための拡散型フレームワークを提案する。
我々のフレームワークは連続時間拡散モデルに基づいており、SSIMBaDを導入している。
大規模なアニメ顔データを用いた実験により,本手法は画素精度と知覚品質の両方において最先端のモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel diffusion-based framework for automatic colorization of Anime-style facial sketches. Our method preserves the structural fidelity of the input sketch while effectively transferring stylistic attributes from a reference image. Unlike traditional approaches that rely on predefined noise schedules - which often compromise perceptual consistency -- our framework builds on continuous-time diffusion models and introduces SSIMBaD (Sigma Scaling with SSIM-Guided Balanced Diffusion). SSIMBaD applies a sigma-space transformation that aligns perceptual degradation, as measured by structural similarity (SSIM), in a linear manner. This scaling ensures uniform visual difficulty across timesteps, enabling more balanced and faithful reconstructions. Experiments on a large-scale Anime face dataset demonstrate that our method outperforms state-of-the-art models in both pixel accuracy and perceptual quality, while generalizing to diverse styles. Code is available at github.com/Giventicket/SSIMBaD-Sigma-Scaling-with-SSIM-Guided-Balanced-Diffusion-for-AnimeFace-Color ization
- Abstract(参考訳): 本稿では,アニメスタイルの顔スケッチの自動着色のための拡散型フレームワークを提案する。
本手法は,参照画像からスタイリスティックな属性を効果的に転送しながら,入力スケッチの構造的忠実性を保っている。
SSIMBaD(Sigma Scaling with SSIM-Guided Balanced Diffusion)を導入しています。
SSIMBaDは、構造的類似性(SSIM)によって測定された知覚的劣化を線形に整列するシグマ空間変換を適用する。
このスケーリングにより、タイムステップ全体で均一な視覚的困難が保証され、よりバランスよく忠実な再構築が可能になる。
大規模なアニメ顔データを用いた実験により,本手法は,多種多様なスタイルに一般化しつつ,画素精度と知覚品質の両方において最先端のモデルより優れることを示した。
コードはgithub.com/Giventicket/SSIMBaD-Sigma-Scaling-with-SSIM-Guided-Balanced-Diffusion-for-AnimeFace-Color izationで利用可能である。
関連論文リスト
- ConsistentDreamer: View-Consistent Meshes Through Balanced Multi-View Gaussian Optimization [5.55656676725821]
我々はConsistentDreamerを紹介し、まず、固定された複数ビュー前の画像とそれらの間のランダムなビューの集合を生成する。
これにより、SDSの損失によって導かれるビュー間の相違を抑え、一貫した粗い形状を確保する。
各イテレーションでは、生成した複数ビュー前の画像も詳細再構築に使用しています。
論文 参考訳(メタデータ) (2025-02-13T12:49:25Z) - SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models [29.430749386234414]
本稿では,遅延拡散モデルを用いた自己教師付き階層的メイクアップトランスファー(SHMT)手法を提案する。
SHMTは自己教師型の方法で動作し、擬似ペアデータの誤認から解放される。
様々なメイクスタイルに対応するため、階層的なテクスチャの詳細はラプラシアのピラミッドを通して不正確である。
論文 参考訳(メタデータ) (2024-12-15T05:29:07Z) - OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。
リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。
テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis [15.006676130258372]
自己回帰モデルは、以前に合成された画像パッチを上または左にのみ参加することで、コンテキストを線形1次元順序で組み込む。
自己回帰的定式化と多項拡散過程を組み合わせたコンテキストの粗大な階層構造を提案する。
当社のアプローチは、ローカルな画像編集を行うために、制限のない、ユーザが提供するマスクを考慮に入れることができる。
論文 参考訳(メタデータ) (2021-08-19T17:50:07Z) - Self-Supervised Sketch-to-Image Synthesis [21.40315235087551]
本研究では,s2i合成タスクを自己教師あり学習方式で検討する。
まず,一般RGBのみのデータセットに対して,ラインスケッチを効率的に合成する非監視手法を提案する。
次に,自己教師付きオートエンコーダ(ae)を提示し,スケッチやrgb画像からコンテンツ/スタイルの特徴を分離し,スケッチやrgb画像と一致したスタイルを合成する。
論文 参考訳(メタデータ) (2020-12-16T22:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。