論文の概要: MAST: Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer
- arxiv url: http://arxiv.org/abs/2604.12281v1
- Date: Tue, 14 Apr 2026 04:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.244033
- Title: MAST: Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer
- Title(参考訳): MAST:無トレーニングマルチスタイルトランスファーのためのマスクガイド付きマッサージマスアロケーション
- Authors: Dongkyung Kang, Jaeyeon Hwang, Junseo Park, Minji Kang, Yeryeong Lee, Beomseok Ko, Hanyoung Roh, Jeongmin Shin, Hyeryung Jang,
- Abstract要約: MAST(Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer)を提案する。
アーティファクトフリーで構造保存のスタイリングを実現するため、MASTは4つの連結モジュールを統合している。
- 参考スコア(独自算出の注目度): 6.817047561934744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Style transfer aims to render a content image with the visual characteristics of a reference style while preserving its underlying semantic layout and structural geometry. While recent diffusion-based models demonstrate strong stylization capabilities by leveraging powerful generative priors and controllable internal representations, they typically assume a single global style. Extending them to multi-style scenarios often leads to boundary artifacts, unstable stylization, and structural inconsistency due to interference between multiple style representations. To overcome these limitations, we propose MAST (Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer), a novel training-free framework that explicitly controls content-style interactions within the diffusion attention mechanism. To achieve artifact-free and structure-preserving stylization, MAST integrates four connected modules. First, Layout-preserving Query Anchoring prevents global layout collapse by firmly anchoring the semantic structure using content queries. Second, Logit-level Attention Mass Allocation deterministically distributes attention probability mass across spatial regions, seamlessly fusing multiple styles without boundary artifacts. Third, Sharpness-aware Temperature Scaling restores the attention sharpness degraded by multi-style expansion. Finally, Discrepancy-aware Detail Injection adaptively compensates for localized high-frequency detail losses by measuring structural discrepancies. Extensive experiments demonstrate that MAST effectively mitigates boundary artifacts and maintains structural consistency, preserving texture fidelity and spatial coherence even as the number of applied styles increases.
- Abstract(参考訳): スタイル転送は、その基盤となるセマンティックなレイアウトと構造的幾何学を保ちながら、参照スタイルの視覚的特徴を持つコンテンツイメージをレンダリングすることを目的としている。
最近の拡散モデルでは、強力な生成先行と制御可能な内部表現を活用することで、強いスタイル化能力を示すが、通常は単一のグローバルなスタイルを仮定する。
それらをマルチスタイルのシナリオに拡張することは、境界アーティファクト、不安定なスタイル化、複数のスタイル表現間の干渉による構造的不整合につながることが多い。
これらの制約を克服するために,MAST(Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer)を提案する。
アーティファクトフリーで構造保存のスタイリングを実現するため、MASTは4つの連結モジュールを統合している。
まず、Layout保存クエリアンカリングは、コンテンツクエリを使用してセマンティック構造をしっかりと固定することで、グローバルなレイアウトの崩壊を防ぐ。
第二に、ロジトレベルの注意質量配分は、空間領域に注意確率質量を決定的に分散し、境界アーチファクトのない複数のスタイルをシームレスに融合させる。
第3に、シャープネスを意識した温度スケーリングは、マルチスタイル拡張によって劣化した注意シャープネスを復元する。
最後に、離散性を考慮した詳細インジェクションは、構造的不一致を測定することにより、局所的な高周波詳細損失を適応的に補償する。
大規模な実験により, MASTは境界アーチファクトを効果的に緩和し, 構造的整合性を保ち, テクスチャの忠実さと空間コヒーレンスを保ちながら, 適用スタイルの数が増えても維持することを示した。
関連論文リスト
- EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection [20.892452296357813]
非教師付きカモフラーゲ型物体検出(UCOD)は、対象物とその周囲の固有の類似性が高いため、依然として困難な課題である。
擬似ラベルの信頼性と特徴の忠実度を両立させる統一UCODフレームワークを提案する。
提案手法は,高精細感,堅牢な境界アライメント,高次一般化を特徴とする最先端性能を実現する。
論文 参考訳(メタデータ) (2026-03-12T04:10:32Z) - Deepfake Detection with Multi-Artifact Subspace Fine-Tuning and Selective Layer Masking [11.158258169109907]
ディープフェイク検出は、クロスデータセットと現実世界の複雑なシナリオにおいて依然として重大な課題に直面している。
本稿では,多要素部分空間と選択層マスク(MASM)に基づくディープフェイク検出手法を提案する。
MASMは、アーティファクト表現から意味表現を明示的に分離し、アーティファクト部分空間の適合強度を制限する。
論文 参考訳(メタデータ) (2026-01-03T02:33:18Z) - AnyMS: Bottom-up Attention Decoupling for Layout-guided and Training-free Multi-subject Customization [55.06425570300248]
我々はレイアウト誘導型マルチオブジェクトカスタマイズのためのトレーニングフリーフレームワークであるAnyMSを紹介する。
AnyMSはテキストプロンプト、主題画像、レイアウト制約という3つの入力条件を利用する。
AnyMSは最先端のパフォーマンスを達成し、複雑な構成をサポートし、より多くの課題にスケールする。
論文 参考訳(メタデータ) (2025-12-29T15:26:25Z) - MeshMosaic: Scaling Artist Mesh Generation via Local-to-Global Assembly [62.48017648785026]
MeshMosaicは,100K以上の三角形にスケールするアーティストメッシュ生成のための,新たなローカル・グローバルなフレームワークである。
MeshMosaicは,幾何学的忠実度とユーザの好みの両方において,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-24T11:02:03Z) - ICAS: IP Adapter and ControlNet-based Attention Structure for Multi-Subject Style Transfer Optimization [0.0]
ICASは効率的かつ制御可能なマルチオブジェクトスタイル転送のための新しいフレームワークである。
我々のフレームワークは、正確な局所的なスタイル合成とともに、忠実なグローバルなレイアウト維持を保証します。
ICASは、構造保存、スタイル整合性、推論効率において優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-04-17T10:48:11Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。