論文の概要: SEAL: Semantic-aware Single-image Sticker Personalization with a Large-scale Sticker-tag Dataset
- arxiv url: http://arxiv.org/abs/2604.26883v1
- Date: Wed, 29 Apr 2026 16:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.500773
- Title: SEAL: Semantic-aware Single-image Sticker Personalization with a Large-scale Sticker-tag Dataset
- Title(参考訳): SEAL: 大規模ステッカータグデータセットを用いた意味認識型シングルイメージステッカーパーソナライゼーション
- Authors: Changhyun Roh, Yonghyun Jeong, Jonghyun Lee, Chanho Eom, Jihyong Oh,
- Abstract要約: Single-image Sticker persontextbfALization (textbfSEAL) は、プラグイン・アンド・プレイのアーキテクチャに依存しない適応モジュールである。
SEALは,(1)セマンティック誘導空間注意損失,(2)分割マージトークン戦略,(3)構造認識層制限の3つの要素を組み込む。
StickerBenchは6属性スキーマの下で構造化されたタグを持つ、大規模なステッカーイメージデータセットである。
- 参考スコア(独自算出の注目度): 18.101234691975815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing a target concept from a single reference image is challenging in diffusion-based personalized text-to-image generation, particularly for sticker personalization where prompts often require explicit attribute edits. With only one reference, test-time fine-tuning (TTF) methods tend to overfit, producing \textit{visual entanglement}, where background artifacts are absorbed into the learned concept, and \textit{structural rigidity}, where the model memorizes reference-specific spatial configurations and loses contextual controllability. To address these issues, we introduce \textbf{SE}mantic-aware single-image sticker person\textbf{AL}ization (\textbf{SEAL}), a plug-and-play, architecture-agnostic adaptation module that integrates into existing personalization pipelines without modifying their U-Net-based diffusion backbones. SEAL applies three components during embedding adaptation: (1) a Semantic-guided Spatial Attention Loss, (2) a Split-merge Token Strategy, and (3) Structure-aware Layer Restriction. To support sticker-domain personalization with attribute-level control, we present StickerBench, a large-scale sticker image dataset with structured tags under a six-attribute schema (Appearance, Emotion, Action, Camera Composition, Style, Background). These annotations provide a consistent interface for varying context while keeping target identity fixed, enabling systematic evaluation of identity disentanglement and contextual controllability. Experiments show that SEAL consistently improves identity preservation while maintaining contextual controllability, highlighting the importance of explicit spatial and structural constraints during test-time adaptation. The code, StickerBench, and project page will be publicly released.
- Abstract(参考訳): 単一の参照画像からターゲット概念を合成することは、拡散に基づくパーソナライズされた画像生成において、特にプロンプトが明示的な属性編集を必要とするステッカーのパーソナライゼーションにおいて困難である。
TTF(Test-time Fine-tuning)メソッドは1つの参照だけでオーバーフィットする傾向があり、バックグラウンドアーティファクトを学習概念に吸収する \textit{visual entanglement} と、モデルが参照固有の空間構成を記憶し、コンテキスト制御性を失う \textit{structural rigidity} を生成する。
これらの問題に対処するために、U-Netベースの拡散バックボーンを変更することなく既存のパーソナライズパイプラインに統合される、プラグアンドプレイでアーキテクチャに依存しない適応モジュールである、textbf{SE}mantic-aware single-image sticker person\textbf{AL}ization (\textbf{SEAL})を導入する。
SEALは,(1)セマンティック誘導空間注意損失,(2)分割マージトークン戦略,(3)構造認識層制限の3つの要素を組み込む。
属性レベル制御によるステッカードメインのパーソナライゼーションをサポートするため、StickerBenchは6属性スキーマ(外観、感情、アクション、カメラ構成、スタイル、背景)で構造化されたタグを持つ大規模なステッカーイメージデータセットである。
これらのアノテーションは、ターゲットのアイデンティティを固定しつつ、異なるコンテキストに対して一貫したインターフェースを提供し、アイデンティティの非絡み合いとコンテキスト制御性の体系的な評価を可能にする。
実験により、SEALはコンテキスト制御性を維持しながら、恒常的にアイデンティティの保存を改善し、テスト時間適応時の空間的制約と構造的制約の重要性を強調した。
StickerBenchというコードとプロジェクトページが公開される。
関連論文リスト
- StructDiff: A Structure-Preserving and Spatially Controllable Diffusion Model for Single-Image Generation [72.84181869780627]
StructDiffは、単一画像生成のための単一スケール拡散モデルに基づく生成フレームワークである。
3次元位置符号化(PE)を空間的先行として組み込んでおり、生成されたオブジェクトの位置、スケール、局所的な詳細を柔軟に制御することができる。
また、テキスト誘導画像生成、画像編集、アウトペインティング、ペイント・ツー・イメージ合成など、下流タスクにも幅広い適用性を示す。
論文 参考訳(メタデータ) (2026-04-14T10:55:43Z) - AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization [55.06425570300248]
我々はレイアウト誘導型マルチオブジェクトカスタマイズのためのトレーニングフリーフレームワークであるAnyMSを紹介する。
AnyMSはテキストプロンプト、主題画像、レイアウト制約という3つの入力条件を利用する。
AnyMSは最先端のパフォーマンスを達成し、複雑な構成をサポートし、より多くの課題にスケールする。
論文 参考訳(メタデータ) (2025-12-29T15:26:25Z) - ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation [14.341691123354195]
ASemconsistは、プロンプトアライメントを犠牲にすることなく、文字アイデンティティの明示的な意味制御を可能にする。
我々のフレームワークは最先端のパフォーマンスを実現し、実質的に以前のトレードオフを克服します。
論文 参考訳(メタデータ) (2025-12-29T07:06:57Z) - Training-Free Disentangled Text-Guided Image Editing via Sparse Latent Constraints [2.4140502941897544]
テキスト駆動の画像操作は、しばしば属性の絡み合いに悩まされる。
Predict, Prevent, and Evaluate frameworkは、事前訓練された視覚言語モデルを活用して、アンタングル編集に利用することでこの問題に対処する。
実験の結果、提案手法はより集中的で制御された編集を強制し、顔認証を維持しながら意図しない非ターゲット属性の変化を効果的に低減することを示した。
論文 参考訳(メタデータ) (2025-12-25T11:38:10Z) - TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing [56.73004765030206]
STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。
本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。
TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
論文 参考訳(メタデータ) (2025-11-17T14:15:03Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - CustomNet: Zero-shot Object Customization with Variable-Viewpoints in
Text-to-Image Diffusion Models [85.69959024572363]
CustomNetは、オブジェクトのカスタマイズプロセスに3Dの新しいビュー合成機能を明示的に組み込んだ、新しいオブジェクトカスタマイズアプローチである。
テキスト記述や特定のユーザ定義画像による位置制御とフレキシブルな背景制御を実現するための繊細な設計を導入する。
本手法は,テスト時間最適化を伴わないゼロショットオブジェクトのカスタマイズを容易にし,視点,位置,背景を同時制御する。
論文 参考訳(メタデータ) (2023-10-30T17:50:14Z) - Towards Disentangling Latent Space for Unsupervised Semantic Face
Editing [21.190437168936764]
修正属性の編集には注釈付きトレーニングデータが必要で、編集可能な属性をラベル付き属性に制限する。
本稿では、重み分解と直交正規化(STIA-WO)を用いた構造テクスチュア独立アーキテクチャ(Structure-Texture Independent Architecture)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-05T03:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。