論文の概要: A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth
- arxiv url: http://arxiv.org/abs/2408.08561v3
- Date: Thu, 22 Aug 2024 13:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 12:42:26.337595
- Title: A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth
- Title(参考訳): ドリームブースを用いた安定拡散に基づく新しい中国景観絵画生成モデル
- Authors: Yujia Gu, Xinyu Fang, Xueyuan Deng, Zihan Peng, Yinan Peng,
- Abstract要約: 本研究では,中国景観絵画の制作方法を紹介する。
LoRAと事前訓練SDM、DreamBoothと事前訓練SDMを組み合わせることにより、トレーニングプロセスが加速される。
ドリームブースと組み合わせたSDMはデータセット上で12.75のFIDを達成し、専門家評価の点で他のモデルよりも優れている。
- 参考スコア(独自算出の注目度): 0.4442846744776512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study mainly introduces a method combining the Stable Diffusion Model (SDM) and Parameter-Efficient Fine-Tuning method for generating Chinese Landscape Paintings. This training process is accelerated by combining LoRA with pre-trained SDM and DreamBooth with pre-trained SDM, respectively. On the Chinese Landscape Paintings Internet dataset used in this paper, this study finds that SDM combined with DreamBooth exhibits superior performance, outperforming other models, including the generic pre-trained SDM and LoRA-based fine-tuning SDM. The SDM combined with DreamBooth achieves a FID of 12.75 on the dataset and outperforms all other models in terms of expert evaluation, highlighting the model's versatility in the field of Chinese Landscape Paintings given the unique identifier, high fidelity and high quality. This study illustrates the potential of specialised fine-tuning method to improve the performance of SDM on domain-specific tasks, particularly in the domain of Landscape Paintings.
- Abstract(参考訳): 本研究は, 安定拡散モデル (SDM) とパラメータ効率の良いファインチューニング法を組み合わせた中国景観絵画の製作を主目的とする手法を提案する。
このトレーニングプロセスは、LoRAと事前訓練されたSDMとDreamBoothとをそれぞれ組み合わせて加速する。
本研究は,中国景観絵画インターネットデータセットにおいて,DreamBoothと組み合わせたSDMが,一般的な事前学習型SDMやLoRAによる微調整型SDMなど,他のモデルよりも優れた性能を示すことを示す。
SDMとDreamBoothを組み合わせたSDMは、データセット上で12.75のFIDを達成し、専門家評価の観点から他のモデルよりも優れており、中国景観絵画の分野におけるモデルの汎用性は、ユニークな識別子、高い忠実さ、高品質を与えられた。
本研究は,特に景観絵画の領域において,ドメイン固有のタスクにおけるSDMの性能を向上させるための特別調整手法の可能性を示す。
関連論文リスト
- Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition [4.192370959537781]
本稿では,ラベル付きデータに制限のある下流タスクにおいて,事前学習した基礎モデルの性能向上を目的とした半教師付き微調整手法を提案する。
我々は、MNIST、その拡張されたバリエーション、CIFAR-10、SVHN、GalaxyMNISTを含む複数のデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-10-02T22:36:12Z) - StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning [2.037819652873519]
本稿では,フォトリアリスティック物理ベースレンダリング(PBR)材料を生成する新しいアプローチであるStableMaterialsを紹介する。
本手法は,既存の大規模画像生成モデルから知識を抽出するために,逆行訓練を用いる。
拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T16:29:46Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - DMT: Comprehensive Distillation with Multiple Self-supervised Teachers [27.037140667247208]
プレトレーニングモデル圧縮のためのDMT(Comprehensive Distillation with Multiple Self-supervised Teachers)を提案する。
評価実験の結果,提案手法は最先端の競合相手を大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T08:31:30Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Deep Learning Model Transfer in Forest Mapping using Multi-source
Satellite SAR and Optical Images [0.08749675983608168]
プロットレベル測定を用いた事前学習モデルの対象領域へのモデル移行(ドメイン適応)。
森林構造と組成の異なる2つの異なるタイガ遺跡へのアプローチを実証した。
転送学習を活用することで、SeUNetの予測は2.70mと0.882のR$2$の根平均二乗誤差(RMSE)を達成した。
論文 参考訳(メタデータ) (2023-08-09T15:05:41Z) - CCLAP: Controllable Chinese Landscape Painting Generation via Latent
Diffusion Model [54.74470985388726]
制御可能な中国の風景画作成方法CCLAP。
本手法は,特に芸術的・芸術的概念において,最先端の演奏を実現する。
論文 参考訳(メタデータ) (2023-04-09T04:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。