論文の概要: CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion
- arxiv url: http://arxiv.org/abs/2401.14066v3
- Date: Thu, 15 May 2025 10:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:05.939224
- Title: CreativeSynth: Cross-Art-Attention for Artistic Image Synthesis with Multimodal Diffusion
- Title(参考訳): CreativeSynth:マルチモーダル拡散を用いた芸術的画像合成のためのクロスアートアテンション
- Authors: Nisha Huang, Weiming Dong, Yuxin Zhang, Fan Tang, Ronghui Li, Chongyang Ma, Xiu Li, Tong-Yee Lee, Changsheng Xu,
- Abstract要約: レイアウト、視点、形状、意味といった重要な絵の属性は、しばしばスタイル転送によって伝達され、表現されない。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
- 参考スコア(独自算出の注目度): 73.08710648258985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although remarkable progress has been made in image style transfer, style is just one of the components of artistic paintings. Directly transferring extracted style features to natural images often results in outputs with obvious synthetic traces. This is because key painting attributes including layout, perspective, shape, and semantics often cannot be conveyed and expressed through style transfer. Large-scale pretrained text-to-image generation models have demonstrated their capability to synthesize a vast amount of high-quality images. However, even with extensive textual descriptions, it is challenging to fully express the unique visual properties and details of paintings. Moreover, generic models often disrupt the overall artistic effect when modifying specific areas, making it more complicated to achieve a unified aesthetic in artworks. Our main novel idea is to integrate multimodal semantic information as a synthesis guide into artworks, rather than transferring style to the real world. We also aim to reduce the disruption to the harmony of artworks while simplifying the guidance conditions. Specifically, we propose an innovative multi-task unified framework called CreativeSynth, based on the diffusion model with the ability to coordinate multimodal inputs. CreativeSynth combines multimodal features with customized attention mechanisms to seamlessly integrate real-world semantic content into the art domain through Cross-Art-Attention for aesthetic maintenance and semantic fusion. We demonstrate the results of our method across a wide range of different art categories, proving that CreativeSynth bridges the gap between generative models and artistic expression. Code and results are available at https://github.com/haha-lisa/CreativeSynth.
- Abstract(参考訳): 画風の移譲で顕著な進展が見られたが、画風は画風の構成要素の1つである。
抽出されたスタイル特徴を自然画像に直接転送すると、しばしば明らかな合成トレースを伴う出力が発生する。
これは、レイアウト、パースペクティブ、形状、セマンティクスを含むキーペイントの属性が、しばしばスタイル転送を通じて伝達され、表現されないためである。
大規模な事前訓練された画像生成モデルは、大量の高品質な画像を合成できることを実証している。
しかし、広範に記述されているにもかかわらず、画の独特の視覚的特徴や細部を完全に表現することは困難である。
さらに、ジェネリックモデルは特定の領域を変更する際の全体的な芸術効果を損なうことが多く、アートワークにおいて統一された美学を達成するのがより複雑になる。
我々の主要なアイデアは、スタイルを現実の世界に移すのではなく、多モーダルな意味情報を合成ガイドとしてアートに組み込むことである。
また,指導条件を簡素化しつつ,アートワークの調和を損なうことの軽減も目指している。
具体的には,マルチモーダル入力を協調する拡散モデルに基づく,CreativeSynthと呼ばれる革新的なマルチタスク統合フレームワークを提案する。
CreativeSynthは、マルチモーダル機能とカスタマイズされたアテンションメカニズムを組み合わせることで、美的メンテナンスとセマンティックフュージョンのためのクロスアートアテンションを通じて、実世界のセマンティックコンテンツをアートドメインにシームレスに統合する。
本稿では,CreativeSynthが生成モデルと芸術表現のギャップを埋めることが証明された。
コードと結果はhttps://github.com/haha-lisa/CreativeSynth.comで公開されている。
関連論文リスト
- CREA: A Collaborative Multi-Agent Framework for Creative Content Generation with Diffusion Models [3.3454373538792552]
CREAは、人間の創造プロセスを模倣する新しいマルチエージェント協調フレームワークである。
創造性を動的でエージェント的なプロセスとして構成することにより、CREAはAIとアートの交差点を再定義する。
論文 参考訳(メタデータ) (2025-04-07T17:59:51Z) - A Tiered GAN Approach for Monet-Style Image Generation [0.562479170374811]
本稿では,多段階プロセスにより画像品質を段階的に改善する階層型GANモデルを提案する。
このモデルはランダムノイズを詳細な芸術表現に変換し、トレーニングにおける不安定性、モード崩壊、出力品質といった共通の課題に対処する。
論文 参考訳(メタデータ) (2024-12-07T19:10:29Z) - Neural-Polyptych: Content Controllable Painting Recreation for Diverse Genres [30.83874057768352]
我々は,広汎で高解像度な絵画の作成を容易にするために,ニューラル・ポリプチッチという統一的な枠組みを提案する。
我々は、生成プロセスを2つの部分に分割する、マルチスケールのGANベースのアーキテクチャを設計した。
我々は東洋絵画と西洋絵画の両方の多様なジャンルへのアプローチを検証する。
論文 参考訳(メタデータ) (2024-09-29T12:46:00Z) - ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-06-04T23:39:08Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文 参考訳(メタデータ) (2023-11-27T01:24:31Z) - Generative AI Model for Artistic Style Transfer Using Convolutional
Neural Networks [0.0]
芸術的なスタイルの転送は、ある画像の内容を別の芸術的なスタイルに融合させ、ユニークな視覚的な構成を作り出すことである。
本稿では,畳み込みニューラルネットワーク(CNN)を用いた新しいスタイル伝達手法の概要を概説する。
論文 参考訳(メタデータ) (2023-10-27T16:21:17Z) - Composite Diffusion | whole >= \Sigma parts [0.0]
本稿では,サブシーンからの合成により,アーティストが高品質な画像を生成する手段として,複合拡散を導入する。
サブシーンの生成, 構成, 調和の代替手段を可能にする, 複合拡散の包括的かつモジュラーな方法を提案する。
論文 参考訳(メタデータ) (2023-07-25T17:58:43Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity [94.5479418998225]
視覚的忠実度の高いスタイリングのためのQuantArtと呼ばれる新しいスタイル転送フレームワークを提案する。
本フレームワークは,既存のスタイル転送方式と比較して,視覚的忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-20T17:09:53Z) - DoodleFormer: Creative Sketch Drawing with Transformers [68.18953603715514]
創造的スケッチ(Creative sketching)またはドゥーリング(Duodling)は、日常の視覚的物体の想像的かつ以前は目に見えない描写が描かれた表現的活動である。
本稿では,クリエイティビティスケッチ生成問題を粗いスケッチ合成に分解する,粗い2段階のフレームワークDoodleFormerを提案する。
生成した創作スケッチの多様性を確保するため,確率論的粗いスケッチデコーダを導入する。
論文 参考訳(メタデータ) (2021-12-06T18:59:59Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。