論文の概要: SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer
- arxiv url: http://arxiv.org/abs/2503.04119v1
- Date: Thu, 06 Mar 2025 05:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:39.333795
- Title: SCSA: A Plug-and-Play Semantic Continuous-Sparse Attention for Arbitrary Semantic Style Transfer
- Title(参考訳): SCSA:任意セマンティックスタイル転送のためのプラグアンドプレイ連続スパースアテンション
- Authors: Chunnan Shang, Zhizhong Wang, Hongwei Wang, Xiangming Meng,
- Abstract要約: 根本原因は局所的地域と意味的地域との関係を考慮できないことにあると論じる。
任意のセマンティック・スタイルの転送を行うために,SCSA と呼ばれるプラグイン・アンド・プレイ型セマンティック・セマンティック・スパース・アテンションを提案する。
- 参考スコア(独自算出の注目度): 14.583909336113566
- License:
- Abstract: Attention-based arbitrary style transfer methods, including CNN-based, Transformer-based, and Diffusion-based, have flourished and produced high-quality stylized images. However, they perform poorly on the content and style images with the same semantics, i.e., the style of the corresponding semantic region of the generated stylized image is inconsistent with that of the style image. We argue that the root cause lies in their failure to consider the relationship between local regions and semantic regions. To address this issue, we propose a plug-and-play semantic continuous-sparse attention, dubbed SCSA, for arbitrary semantic style transfer -- each query point considers certain key points in the corresponding semantic region. Specifically, semantic continuous attention ensures each query point fully attends to all the continuous key points in the same semantic region that reflect the overall style characteristics of that region; Semantic sparse attention allows each query point to focus on the most similar sparse key point in the same semantic region that exhibits the specific stylistic texture of that region. By combining the two modules, the resulting SCSA aligns the overall style of the corresponding semantic regions while transferring the vivid textures of these regions. Qualitative and quantitative results prove that SCSA enables attention-based arbitrary style transfer methods to produce high-quality semantic stylized images.
- Abstract(参考訳): CNNベース、Transformerベース、Diffusionベースなど、注意に基づく任意のスタイル転送手法が発展し、高品質なスタイリング画像を生み出している。
しかし、同じ意味を持つ内容やスタイル画像、すなわち、生成されたスタイル化された画像の対応する意味領域のスタイルは、スタイル画像のそれと矛盾しない。
根本原因は局所的地域と意味的地域との関係を考慮できないことにあると論じる。
この問題に対処するために、任意のセマンティックスタイル転送のためのSCSAと呼ばれるプラグインとプレイのセマンティックなセマンティックなセマンティックなアテンションを提案し、各クエリポイントは対応するセマンティック領域の特定のキーポイントを考慮している。
セマンティック・スパース・アテンション(Semantic sparse attention)は、各クエリポイントが、その領域の特定のスタイル的テクスチャを示す同じセマンティック領域の最も類似したスパース・キーポイントに集中できるようにする。
2つのモジュールを組み合わせることで、SCSAは対応する意味領域の全体スタイルを整列し、これらの領域の鮮やかなテクスチャを転送する。
質的かつ定量的な結果から、SCSAは注意に基づく任意のスタイル転送法により、高品質なセマンティックスタイリング画像を作成することができることが証明された。
関連論文リスト
- Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation [4.850207292777464]
ドメイン一般化セマンティック(Domain Generalized Semantic)は、未知のターゲットドメイン間のセマンティックセグメンテーションの一般化を強化することを目的としている。
本稿では,セマンティック一貫性予測とスタイル多様性の一般化のためのSCSDを紹介する。
SCSDは既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-12-16T18:20:06Z) - Rethinking the Spatial Inconsistency in Classifier-Free Diffusion Guidance [17.29693696084235]
テキストと画像の拡散モデルにおいて,異なる意味単位に対して指導度をカスタマイズする新しい手法を提案する。
我々は,各意味領域のCFG尺度を適応的に調整し,テキスト誘導度を均一なレベルに再スケールする。
実験は、様々なテキスト・画像拡散モデルにおける元のCFG戦略よりもS-CFGの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-04-08T10:45:29Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - All-to-key Attention for Arbitrary Style Transfer [98.83954812536521]
コンテンツ特徴のそれぞれの位置を,スタイル特徴の安定なキー位置と一致させる,新しいオール・ツー・キーアテンション機構を提案する。
結果、StyA2Kと呼ばれるモジュールは、セマンティック構造を保持し、一貫性のあるスタイルパターンをレンダリングする際、素晴らしいパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-08T06:46:35Z) - Consistent Style Transfer [23.193302706359464]
近年,微粒化を実現するため,注意型任意のスタイル転送手法が提案されている。
この問題を軽減するために, プログレッシブ・アテンショナル・アライメント (PAMA) を提案する。
PAMAは,意味領域の不整合を回避しつつ,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-01-06T20:19:35Z) - Spatial and Semantic Consistency Regularizations for Pedestrian
Attribute Recognition [50.932864767867365]
本稿では,各属性に対する空間的および意味的一貫性を実現するために,2つの相補的正規化からなるフレームワークを提案する。
属性の正確な位置に基づいて,本質的および識別的意味的特徴を抽出する意味的整合性正規化を提案する。
その結果,提案手法はパラメータを増大させることなく,最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2021-09-13T03:36:44Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。