論文の概要: PokeFusion Attention: Enhancing Reference-Free Style-Conditioned Generation
- arxiv url: http://arxiv.org/abs/2602.03220v1
- Date: Tue, 03 Feb 2026 07:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.316834
- Title: PokeFusion Attention: Enhancing Reference-Free Style-Conditioned Generation
- Title(参考訳): PokeFusionの注意: 参照不要なスタイル定義生成の強化
- Authors: Jingbang Tang,
- Abstract要約: テキスト・画像拡散モデルにおける参照不要なスタイル条件付き文字生成について検討する。
既存のアプローチでは、テキストのみのプロンプトや、推論時に外部イメージに依存する参照ベースのアダプタを導入している。
軽量デコーダレベルのクロスアテンション機構であるPokeFusion Attentionを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies reference-free style-conditioned character generation in text-to-image diffusion models, where high-quality synthesis requires both stable character structure and consistent, fine-grained style expression across diverse prompts. Existing approaches primarily rely on text-only prompting, which is often under-specified for visual style and tends to produce noticeable style drift and geometric inconsistency, or introduce reference-based adapters that depend on external images at inference time, increasing architectural complexity and limiting deployment flexibility.We propose PokeFusion Attention, a lightweight decoder-level cross-attention mechanism that fuses textual semantics with learned style embeddings directly inside the diffusion decoder. By decoupling text and style conditioning at the attention level, our method enables effective reference-free stylized generation while keeping the pretrained diffusion backbone fully frozen.PokeFusion Attention trains only decoder cross-attention layers together with a compact style projection module, resulting in a parameter-efficient and plug-and-play control component that can be easily integrated into existing diffusion pipelines and transferred across different backbones.Experiments on a stylized character generation benchmark (Pokemon-style) demonstrate that our method consistently improves style fidelity, semantic alignment, and character shape consistency compared with representative adapter-based baselines, while maintaining low parameter overhead and inference-time simplicity.
- Abstract(参考訳): 本稿では,テキスト間拡散モデルにおける参照不要なスタイル条件付き文字生成について検討する。
既存のアプローチは主にテキストのみのプロンプトに依存しており、しばしば視覚的スタイルでは不特定であり、目立ったスタイルのドリフトと幾何学的不整合を生み出す傾向がある。また、推論時に外部画像に依存する参照ベースのアダプタを導入し、アーキテクチャの複雑さを増大させ、デプロイメントの柔軟性を制限している。我々はPokeFusion Attentionを提案する。これは軽量なデコーダレベルのクロスアテンション機構で、学習スタイルの埋め込みを拡散デコーダに直接融合させる。
PokeFusion Attention Train only decoder cross-attention layer with with a compact style projection module, result a parameter- efficient and plug-and-play control component which can be integrated into existing diffusion pipelines and transfer around different backbones, an stylized character generation benchmark (Pokemon-style) では、パラメータのオーバーヘッドや推論時間の単純さを抑えながら、スタイルの忠実さ、セマンティックアライメント、キャラクタ形状の整合性を一貫して改善することを示した。
関連論文リスト
- CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer [85.217605146499]
CoCoDiffは、コンピュータビジョンのためのトレーニング不要で低コストなスタイル転送フレームワークである。
事前訓練された潜在拡散モデルを利用して、細粒度でセマンティックに一貫したスタイリングを実現する。
CoCoDiffは最先端のビジュアル品質と強力な定量的結果を提供し、追加のトレーニングやアノテーションに依存する方法よりも優れています。
論文 参考訳(メタデータ) (2026-02-16T04:52:29Z) - Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。
セマンティック・スタイル統合(DSSI)機構を提案する。
実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文 参考訳(メタデータ) (2026-01-10T16:01:14Z) - Domain Generalizable Portrait Style Transfer [37.85739992959271]
本稿では,入力画像と参照画像との密接なセマンティックな対応性を確立することを提案する。
入力にセマンティックに整合したワープ参照を得る。
スタイルアダプタは、歪んだ参照からスタイルガイダンスを提供するように設計されている。
論文 参考訳(メタデータ) (2025-07-06T04:56:25Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation [5.364489068722223]
スタイルの概念は本質的に過小評価されており、色、材料、雰囲気、デザイン、構造といった様々な要素を含んでいる。
インバージョンベースの手法はスタイルの劣化を招きやすいため、細かな細部が失われることが多い。
アダプタベースのアプローチでは、スタイル強度とテキストの制御性のバランスをとるために、参照画像ごとに微妙な重み調整が必要となることが多い。
論文 参考訳(メタデータ) (2024-04-03T13:34:09Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。