Fugu-MT 論文翻訳(概要): RegionRoute: Regional Style Transfer with Diffusion Model

論文の概要: RegionRoute: Regional Style Transfer with Diffusion Model

arxiv url: http://arxiv.org/abs/2602.19254v1
Date: Sun, 22 Feb 2026 16:11:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.551461
Title: RegionRoute: Regional Style Transfer with Diffusion Model
Title（参考訳）: RegionRoute:拡散モデルによる地域スタイルの転送
Authors: Bowen Chen, Jake Zuena, Alan C. Bovik, Divya Kothandaraman,
Abstract要約: 本研究では,学習中の物体マスクとスタイルトークンのアテンションスコアをアライメントすることで,特定のスタイルをどこに適用すべきかをモデルに教える,注意制御拡散フレームワークを提案する。モジュール化されたLoRA-MoEの設計により、より効率的でスケーラブルなマルチスタイルの適応が可能になる。実験の結果,提案手法は推論時にマスクフリーで単一オブジェクトスタイルの転送を実現することがわかった。
参考スコア（独自算出の注目度）: 31.189878461660115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Precise spatial control in diffusion-based style transfer remains challenging. This challenge arises because diffusion models treat style as a global feature and lack explicit spatial grounding of style representations, making it difficult to restrict style application to specific objects or regions. To our knowledge, existing diffusion models are unable to perform true localized style transfer, typically relying on handcrafted masks or multi-stage post-processing that introduce boundary artifacts and limit generalization. To address this, we propose an attention-supervised diffusion framework that explicitly teaches the model where to apply a given style by aligning the attention scores of style tokens with object masks during training. Two complementary objectives, a Focus loss based on KL divergence and a Cover loss using binary cross-entropy, jointly encourage accurate localization and dense coverage. A modular LoRA-MoE design further enables efficient and scalable multi-style adaptation. To evaluate localized stylization, we introduce the Regional Style Editing Score, which measures Regional Style Matching through CLIP-based similarity within the target region and Identity Preservation via masked LPIPS and pixel-level consistency on unedited areas. Experiments show that our method achieves mask-free, single-object style transfer at inference, producing regionally accurate and visually coherent results that outperform existing diffusion-based editing approaches.
Abstract（参考訳）: 拡散型伝達における精密空間制御は依然として困難である。この課題は、拡散モデルがスタイルをグローバルな特徴として扱い、スタイル表現の明示的な空間的基盤が欠如しているため、特定のオブジェクトや領域にスタイル適用を制限することが難しくなるためである。我々の知る限り、既存の拡散モデルでは、手作りマスクや境界アーティファクトを導入し、一般化を制限する多段階後処理を頼りに、真の局所化スタイル転送を行うことができない。そこで,本稿では,学習中のオブジェクトマスクとスタイルトークンのアテンションスコアをアライメントすることで,与えられたスタイルをどこに適用すべきかをモデルに明示的に教える,注意制御型拡散フレームワークを提案する。 KL偏差に基づく焦点損失と二元交叉エントロピーによるカバー損失の2つの相補的目的により,高精度な局所化と密集度が促進された。モジュール化されたLoRA-MoEの設計により、より効率的でスケーラブルなマルチスタイルの適応が可能になる。局所的なスタイリゼーションを評価するために,CLIPをベースとした地域スタイルマッチングと,マスク付きLPIPSによるアイデンティティ保存,および未編集領域におけるピクセルレベルの一貫性を計測する地域スタイル編集スコアを導入する。実験により,提案手法はマスクのない単一オブジェクトのスタイル転送を推論時に達成し,既存の拡散ベースの編集手法よりも精度が高く,視覚的に一貫性のある結果が得られることが示された。

関連論文リスト

CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer [85.217605146499]
CoCoDiffは、コンピュータビジョンのためのトレーニング不要で低コストなスタイル転送フレームワークである。事前訓練された潜在拡散モデルを利用して、細粒度でセマンティックに一貫したスタイリングを実現する。 CoCoDiffは最先端のビジュアル品質と強力な定量的結果を提供し、追加のトレーニングやアノテーションに依存する方法よりも優れています。
論文参考訳（メタデータ） (2026-02-16T04:52:29Z)
Style Composition within Distinct LoRA modules for Traditional Art [21.954368353156546]
複数のスタイルを自然にブレンドするゼロショット拡散パイプラインを提案する。我々は低騒音の潜伏者がより強いスタイル情報を持っているという事実を活用している。 ControlNetによる奥行きマップの条件付けを拡散フレームワークに組み込む。
論文参考訳（メタデータ） (2025-07-16T07:36:07Z)
Unsupervised Region-Based Image Editing of Denoising Diffusion Models [50.005612464340246]
本研究では,事前学習した拡散モデルの潜在空間における意味的属性を,それ以上の訓練を伴わずに同定する手法を提案する。提案手法により,局所的なマスキング領域の正確な意味発見と制御が容易になり,アノテーションの必要がなくなる。
論文参考訳（メタデータ） (2024-12-17T13:46:12Z)
Enabling Local Editing in Diffusion Models by Joint and Individual Component Analysis [18.755311950243737]
拡散モデル(DM)の潜伏空間は、GAN(Generative Adversarial Networks)ほど理解されていない。最近の研究は、DMの潜在領域における教師なし意味発見に焦点を当てている。本稿では,事前学習したDMの認知ネットワークから学習した潜在意味論を分解する教師なし手法を提案する。
論文参考訳（メタデータ） (2024-08-29T18:21:50Z)
LocalStyleFool: Regional Video Style Transfer Attack Using Segment Anything Model [19.37714374680383]
LocalStyleFoolは、ビデオ上の地域スタイルのトランスファーベースの摂動を重畳する、ブラックボックスビデオの敵対攻撃の改良だ。そこで我々は、LocalStyleFoolがフレーム内およびフレーム間自然性の両方を人為的な調査によって改善できることを実証した。
論文参考訳（メタデータ） (2024-03-18T10:53:00Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。 LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)
SARA: Controllable Makeup Transfer with Spatial Alignment and Region-Adaptive Normalization [67.90315365909244]
本稿では,空間アライメントと領域適応正規化法(SARA)を提案する。提案手法は,大規模な空間的不整合を処理し,部分特異的かつ日陰制御可能なメイク転送を実現するための詳細なメイク転送結果を生成する。実験の結果,SARA法は既存の手法よりも優れており,2つの公開データセット上での最先端性能を実現していることがわかった。
論文参考訳（メタデータ） (2023-11-28T14:46:51Z)
R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation [74.5598315066249]
拡散モデルを用いてゼロショット接地T2I生成を探索する。本稿では,地域境界(R&B)を意識したクロスアテンションガイダンス手法を提案する。
論文参考訳（メタデータ） (2023-10-13T05:48:42Z)
MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文参考訳（メタデータ） (2023-03-17T08:35:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。