論文の概要: Text to Sketch Generation with Multi-Styles
- arxiv url: http://arxiv.org/abs/2511.04123v1
- Date: Thu, 06 Nov 2025 07:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.341471
- Title: Text to Sketch Generation with Multi-Styles
- Title(参考訳): マルチスタイルによるテキストからスケッチ生成
- Authors: Tengjie Li, Shikui Tu, Lei Xu,
- Abstract要約: 本研究では,明示的なスタイル指導を可能にする拡散モデルに基づく学習自由フレームワークを提案する。
参照特徴を線形な平滑化を伴う補助情報として組み込んで,スタイルコンテンツ誘導機構を活用する。
提案手法は,高精度なスタイルアライメントとフレキシブルなスタイル制御により,高品質なスケッチ生成を実現する。
- 参考スコア(独自算出の注目度): 17.309370958875785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models have facilitated progress in sketch generation. However, existing specialized methods primarily focus on generic synthesis and lack mechanisms for precise control over sketch styles. In this work, we propose a training-free framework based on diffusion models that enables explicit style guidance via textual prompts and referenced style sketches. Unlike previous style transfer methods that overwrite key and value matrices in self-attention, we incorporate the reference features as auxiliary information with linear smoothing and leverage a style-content guidance mechanism. This design effectively reduces content leakage from reference sketches and enhances synthesis quality, especially in cases with low structural similarity between reference and target sketches. Furthermore, we extend our framework to support controllable multi-style generation by integrating features from multiple reference sketches, coordinated via a joint AdaIN module. Extensive experiments demonstrate that our approach achieves high-quality sketch generation with accurate style alignment and improved flexibility in style control. The official implementation of M3S is available at https://github.com/CMACH508/M3S.
- Abstract(参考訳): 近年の視覚言語モデルの進歩はスケッチ生成の進展を助長している。
しかし、既存の特殊な手法は主に、スケッチスタイルを正確に制御するための一般的な合成と機構の欠如に焦点を当てている。
本研究では,テキストプロンプトと参照スタイルスケッチによる明示的なスタイル指導を可能にする拡散モデルに基づく学習自由フレームワークを提案する。
キーと値行列を自己注意で上書きする従来のスタイル転送方式とは異なり, 参照特徴を線形な平滑化を伴う補助情報として取り入れ, スタイルコンテンツ誘導機構を活用する。
この設計は、参照スケッチからコンテンツリークを効果的に低減し、特に参照スケッチとターゲットスケッチとの構造的類似性が低い場合に、合成品質を向上させる。
さらに、複数の参照スケッチから機能を統合し、共同AdaINモジュールを介してコーディネートすることで、制御可能なマルチスタイル生成をサポートするようにフレームワークを拡張します。
大規模な実験により,提案手法は高精度なスタイルアライメントと,スタイル制御の柔軟性を向上し,高品質なスケッチ生成を実現することが実証された。
M3Sの公式実装はhttps://github.com/CMACH508/M3Sで公開されている。
関連論文リスト
- SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Learning Graph Neural Networks for Image Style Transfer [131.73237185888215]
最先端のパラメトリックおよび非パラメトリックなスタイル転送アプローチは、グローバルな統計アライメントによる局所的なスタイルパターンの歪んだり、パッチミスマッチによるアーティファクトを減らしたりする傾向にある。
本稿では,パラメトリック型と非パラメトリック型の両方のスタイライゼーションの欠如を緩和する,新しい半パラメトリック型ニューラルスタイルトランスファーフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-24T07:41:31Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z) - Sketch-to-Art: Synthesizing Stylized Art Images From Sketches [23.75420342238983]
スケッチから完全に詳細なアートスティル化されたイメージを合成するための新しいアプローチを提案する。
スケッチ、セマンティックタグなし、特定のスタイルの参照イメージが与えられたモデルでは、色やテクスチャで意味のある詳細を合成することができる。
論文 参考訳(メタデータ) (2020-02-26T19:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。