論文の概要: JieHua Paintings Style Feature Extracting Model using Stable Diffusion with ControlNet
- arxiv url: http://arxiv.org/abs/2408.11744v1
- Date: Wed, 21 Aug 2024 16:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:18:16.551749
- Title: JieHua Paintings Style Feature Extracting Model using Stable Diffusion with ControlNet
- Title(参考訳): 制御ネットを用いた安定拡散を用いたジーホア絵画の特徴抽出モデル
- Authors: Yujia Gu, Haofeng Li, Xinyu Fang, Zihan Peng, Yinan Peng,
- Abstract要約: FSDMCのトレーニングデータは、インターネットから収集されたオープンソースのJiehuaアーティストの作品に基づいている。
FSDMCはデータセット上で3.27のFIDを達成し、専門家評価の点でもCycleGANを上回っている。
- 参考スコア(独自算出の注目度): 2.960862201239171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study proposes a novel approach to extract stylistic features of Jiehua: the utilization of the Fine-tuned Stable Diffusion Model with ControlNet (FSDMC) to refine depiction techniques from artists' Jiehua. The training data for FSDMC is based on the opensource Jiehua artist's work collected from the Internet, which were subsequently manually constructed in the format of (Original Image, Canny Edge Features, Text Prompt). By employing the optimal hyperparameters identified in this paper, it was observed FSDMC outperforms CycleGAN, another mainstream style transfer model. FSDMC achieves FID of 3.27 on the dataset and also surpasses CycleGAN in terms of expert evaluation. This not only demonstrates the model's high effectiveness in extracting Jiehua's style features, but also preserves the original pre-trained semantic information. The findings of this study suggest that the application of FSDMC with appropriate hyperparameters can enhance the efficacy of the Stable Diffusion Model in the field of traditional art style migration tasks, particularly within the context of Jiehua.
- Abstract(参考訳): 本研究は,ジワのテクスト的特徴を抽出するための新しいアプローチを提案する。
FSDMCのトレーニングデータは、インターネットから収集されたオープンソースのJiehuaアーティストの作品に基づいており、その後手作業で作成されている(Original Image, Canny Edge Features, Text Prompt)。
本論文では,FSDMCが他の主流モデルであるCycleGANより優れていることを示す。
FSDMCはデータセット上で3.27のFIDを達成し、専門家評価の点でもCycleGANを上回っている。
これは、ジーワのスタイルの特徴を抽出する際のモデルの有効性を示すだけでなく、オリジナルの事前訓練された意味情報も保存する。
本研究は, 従来のアートスタイルのマイグレーション作業において, 特にジーワの文脈において, 安定拡散モデルの有効性を高めることが示唆された。
関連論文リスト
- MERLOT: A Distilled LLM-based Mixture-of-Experts Framework for Scalable Encrypted Traffic Classification [19.476061046309052]
本稿では,暗号化されたトラフィック分類に最適化された蒸留大言語モデルのスケーラブルな混合実験(MoE)による改良について述べる。
10のデータセットの実験では、最先端モデルよりも優れた、あるいは競合的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-20T03:01:41Z) - WeatherDG: LLM-assisted Procedural Weather Generation for Domain-Generalized Semantic Segmentation [4.141230571282547]
本研究では,現実的な,天気の多様性,運転画面の画像を生成するための新しいアプローチであるWeatherDGを提案する。
まず、ソースデータでSDを微調整し、生成されたサンプルの内容とレイアウトを現実世界の運転シナリオに合わせる。
我々は,様々な気象条件下で,SDが高度に調整されたクラスのオブジェクトを生成することを奨励するバランスのとれた生成戦略を導入する。
論文 参考訳(メタデータ) (2024-10-15T21:29:26Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Vision-Enhanced Semantic Entity Recognition in Document Images via
Visually-Asymmetric Consistency Learning [19.28860833813788]
既存のモデルでは、視覚的エンコーダを弱いモード間監視信号で訓練することが一般的である。
そこで本稿では,textbfVisually-textbfAsymmetric cotextbfNsistentextbfCy textbfLearning (textscVancl) アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:37:22Z) - Fine-grained Text Style Transfer with Diffusion-Based Language Models [50.02698074338317]
微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いて拡散モデルを構築した。
本モデルでは, 個人と作曲の両方において, 最先端の性能を達成できた。
論文 参考訳(メタデータ) (2023-05-31T02:51:26Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。