論文の概要: Aided design of bridge aesthetics based on Stable Diffusion fine-tuning
- arxiv url: http://arxiv.org/abs/2409.15812v1
- Date: Tue, 24 Sep 2024 07:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 08:41:18.852139
- Title: Aided design of bridge aesthetics based on Stable Diffusion fine-tuning
- Title(参考訳): 安定拡散微調整に基づく橋梁審美設計
- Authors: Leye Zhang, Xiangxiang Tian, Chengli Zhang, Hongjun Zhang,
- Abstract要約: ブリッジの実際の写真データセットが構築され、Stable DiffusionはTextual Inversion、Dreambooth、Hypernetwork、Loraの4つのメソッドを使用して微調整される。
微調整されたモデルは、多くの革新的な新しいブリッジタイプを生成することができ、人間のデザイナーに豊かなインスピレーションを与えることができる。
- 参考スコア(独自算出の注目度): 1.4185188982404755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stable Diffusion fine-tuning technique is tried to assist bridge-type innovation. The bridge real photo dataset is built, and Stable Diffusion is fine tuned by using four methods that are Textual Inversion, Dreambooth, Hypernetwork and Lora. All of them can capture the main characteristics of dataset images and realize the personalized customization of Stable Diffusion. Through fine-tuning, Stable Diffusion is not only a drawing tool, but also has the designer's innovative thinking ability. The fine tuned model can generate a large number of innovative new bridge types, which can provide rich inspiration for human designers. The result shows that this technology can be used as an engine of creativity and a power multiplier for human designers.
- Abstract(参考訳): 安定拡散微調整技術は橋梁型イノベーションを支援する。
ブリッジの実際の写真データセットが構築され、Stable DiffusionはTextual Inversion、Dreambooth、Hypernetwork、Loraの4つのメソッドを使用して微調整される。
これらはすべて、データセットイメージの主な特徴をキャプチャし、スタブルディフュージョンのパーソナライズされたカスタマイズを実現する。
微調整によって、安定拡散は描画ツールであるだけでなく、デザイナーの革新的な思考能力も備えている。
微調整されたモデルは、多くの革新的な新しいブリッジタイプを生成することができ、人間のデザイナーに豊かなインスピレーションを与えることができる。
その結果、この技術は創造性のエンジンとして、そして人間設計者のためのパワー乗算器として利用できることがわかった。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Towards Effective User Attribution for Latent Diffusion Models via Watermark-Informed Blending [54.26862913139299]
我々は、ウォーターマークインフォームドブレンディング(TEAWIB)による潜伏拡散モデルに対する効果的なユーザ属性に向けた新しいフレームワークを提案する。
TEAWIBは、ユーザ固有の透かしを生成モデルにシームレスに統合する、ユニークな準備可能な構成アプローチを取り入れている。
TEAWIBの有効性を検証し、知覚的品質と帰属精度で最先端の性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-09-17T07:52:09Z) - Ada-adapter:Fast Few-shot Style Personlization of Diffusion Model with Pre-trained Image Encoder [57.574544285878794]
Ada-Adapterは拡散モデルの少数ショットスタイルのパーソナライズのための新しいフレームワークである。
提案手法は,単一の参照画像を用いたゼロショット方式の効率的な転送を可能にする。
フラットアートや3Dレンダリング,ロゴデザインなど,さまざまな芸術的スタイルに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-07-08T02:00:17Z) - DiCTI: Diffusion-based Clothing Designer via Text-guided Input [5.275658744475251]
DiCTI (Diffusion-based Clothing Designer via Text-guided Input)は、デザイナーがテキスト入力のみを使用してファッション関連のアイデアを素早く視覚化できるようにする。
テキスト入力に条件付けされた強力な拡散ベースの塗装モデルを活用することで、DICTIは、さまざまな衣料デザインで、説得力のある高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2024-07-04T12:48:36Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - An attempt to generate new bridge types from latent space of generative
adversarial network [2.05750372679553]
三次元ビームブリッジ,アーチブリッジ,ケーブルステイドブリッジ,サスペンションブリッジの対称構造画像データセットを用いる。
Pythonプログラミング言語とKerasディープラーニングプラットフォームフレームワークに基づいて、ジェネレーティブな敵ネットワークを構築し、訓練する。
論文 参考訳(メタデータ) (2024-01-01T08:46:29Z) - An attempt to generate new bridge types from latent space of variational
autoencoder [2.05750372679553]
変分オートエンコーダは、人間のオリジナルに基づいて2つのブリッジタイプを新しいブリッジタイプに組み合わせることができる。
ジェネレーティブな人工知能技術は、ブリッジタイプのイノベーションにおいて設計者を支援することができ、副操縦士として使用できる。
論文 参考訳(メタデータ) (2023-11-02T08:18:37Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - Designing a Better Asymmetric VQGAN for StableDiffusion [73.21783102003398]
革命的なテキスト・ツー・イメージ生成器であるStableDiffusionは、VQGANを介して潜時空間の拡散モデルを学ぶ。
2つの単純な設計を持つ新しい非対称VQGANを提案する。
StableDiffusionベースの塗り絵やローカル編集手法で広く用いられる。
論文 参考訳(メタデータ) (2023-06-07T17:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。