論文の概要: Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration
- arxiv url: http://arxiv.org/abs/2601.06605v1
- Date: Sat, 10 Jan 2026 16:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.897292
- Title: Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration
- Title(参考訳): Sissi: セマンティックスタイルの統合によるゼロショットスタイル誘導画像合成
- Authors: Yingying Deng, Xiangyu He, Fan Tang, Weiming Dong, Xucheng Yin,
- Abstract要約: 本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
- 参考スコア(独自算出の注目度): 57.02757226679549
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Text-guided image generation has advanced rapidly with large-scale diffusion models, yet achieving precise stylization with visual exemplars remains difficult. Existing approaches often depend on task-specific retraining or expensive inversion procedures, which can compromise content integrity, reduce style fidelity, and lead to an unsatisfactory trade-off between semantic prompt adherence and style alignment. In this work, we introduce a training-free framework that reformulates style-guided synthesis as an in-context learning task. Guided by textual semantic prompts, our method concatenates a reference style image with a masked target image, leveraging a pretrained ReFlow-based inpainting model to seamlessly integrate semantic content with the desired style through multimodal attention fusion. We further analyze the imbalance and noise sensitivity inherent in multimodal attention fusion and propose a Dynamic Semantic-Style Integration (DSSI) mechanism that reweights attention between textual semantic and style visual tokens, effectively resolving guidance conflicts and enhancing output coherence. Experiments show that our approach achieves high-fidelity stylization with superior semantic-style balance and visual quality, offering a simple yet powerful alternative to complex, artifact-prone prior methods.
- Abstract(参考訳): テキスト誘導画像生成は大規模拡散モデルにより急速に進歩しているが、視覚的見本で正確なスタイリゼーションを実現することは依然として困難である。
既存のアプローチは、コンテンツ完全性を妥協し、スタイルの忠実さを減らし、セマンティックなプロンプトの順守とスタイルアライメントの間に満足のいくトレードオフをもたらす、タスク固有のリトレーニングや高価な逆転手順に依存していることが多い。
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
テキスト・セマンティック・プロンプトによってガイドされた本手法は,参照スタイルのイメージとマスクされたターゲット画像とを結合し,事前学習されたReFlowベースのインペインティング・モデルを用いて,マルチモーダル・アテンション・フュージョンを通じて,セマンティック・コンテンツと希望のスタイルをシームレスに統合する。
さらに,マルチモーダルアテンション融合に固有の不均衡やノイズ感度を解析し,テキスト意味とスタイルの視覚トークン間の注意を重み付け,誘導競合を効果的に解消し,出力コヒーレンスを向上する動的セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法は,より優れたセマンティックスタイルのバランスと視覚的品質を備えた高忠実なスタイリングを実現し,複雑でアーティファクトな先行手法に代わる,シンプルで強力な代替手段を提供する。
関連論文リスト
- A Training-Free Style-Personalization via Scale-wise Autoregressive Model [11.918925320254534]
本稿では、推論中のコンテンツやスタイル情報を制御するスタイルパーソナライズド画像生成のための学習自由フレームワークを提案する。
提案手法では,対応するテキストプロンプトで案内されるコンテンツ,スタイル,ジェネレーションの3経路設計を用いる。
論文 参考訳(メタデータ) (2025-07-06T17:42:11Z) - AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。
本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。
また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文 参考訳(メタデータ) (2025-03-10T13:28:36Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。