Fugu-MT 論文翻訳(概要): UniCSG: Unified High-Fidelity Content-Constrained Style-Driven Generation via Staged Semantic and Frequency Disentanglement

論文の概要: UniCSG: Unified High-Fidelity Content-Constrained Style-Driven Generation via Staged Semantic and Frequency Disentanglement

arxiv url: http://arxiv.org/abs/2604.17850v1
Date: Mon, 20 Apr 2026 05:59:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.72182
Title: UniCSG: Unified High-Fidelity Content-Constrained Style-Driven Generation via Staged Semantic and Frequency Disentanglement
Title（参考訳）: UniCSG: 段階的セマンティックおよび周波数アンタングルによる統一された高忠実コンテンツ制約型スタイル駆動生成
Authors: Jingwei Yang, Ruoxi Wu, Wei Shen, Meng Li, Yulong Liu, Huimin She, Lunxi Yuan,
Abstract要約: DiTベースの拡散モデルは、しばしばコンテンツスタイルの絡み合いに悩まされ、参照コンテンツリークと不安定な生成を引き起こす。テキスト誘導と参照誘導の両方でコンテント制約のあるスタイル駆動型生成のための統合フレームワークUniCSGを提案する。
参考スコア（独自算出の注目度）: 13.265643008768825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Style transfer must match a target style while preserving content semantics. DiT-based diffusion models often suffer from content-style entanglement, leading to reference-content leakage and unstable generation. We present UniCSG, a unified framework for content-constrained, style-driven generation in both text-guided and reference-guided settings. UniCSG employs staged training: (i) a latent-space semantic disentanglement stage that combines low-frequency preprocessing with conditioning corruption to encourage content-style separation, and (ii) a latent-space frequency-aware detail reconstruction stage that refines details via multi-scale frequency supervision. We further incorporate pixel-space reward learning to align latent objectives with perceptual quality after decoding. Experiments demonstrate improved content faithfulness, style alignment, and robustness in both settings.
Abstract（参考訳）: スタイル転送は、コンテンツセマンティクスを保持しながらターゲットスタイルにマッチする必要がある。 DiTベースの拡散モデルは、しばしばコンテンツスタイルの絡み合いに悩まされ、参照コンテンツリークと不安定な生成を引き起こす。テキスト誘導と参照誘導の両方でコンテント制約のあるスタイル駆動型生成のための統合フレームワークUniCSGを提案する。 UniCSGはステージドトレーニングを採用しています。 (i)低周波前処理と条件付汚職を組み合わせてコンテンツスタイルの分離を促進する潜時空間意味のゆがみの段階 (II)マルチスケール周波数監視により詳細を精査する潜時周波数認識詳細再構築段階。さらに画素空間の報酬学習を取り入れて、復号後の潜在目標と知覚的品質を整合させる。実験では、両方の設定でコンテンツ忠実性、スタイルアライメント、堅牢性が改善された。

関連論文リスト

MAST: Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer [6.817047561934744]
MAST(Mask-Guided Attention Mass Allocation for Training-Free Multi-Style Transfer)を提案する。アーティファクトフリーで構造保存のスタイリングを実現するため、MASTは4つの連結モジュールを統合している。
論文参考訳（メタデータ） (2026-04-14T04:47:09Z)
CoCoDiff: Correspondence-Consistent Diffusion Model for Fine-grained Style Transfer [85.217605146499]
CoCoDiffは、コンピュータビジョンのためのトレーニング不要で低コストなスタイル転送フレームワークである。事前訓練された潜在拡散モデルを利用して、細粒度でセマンティックに一貫したスタイリングを実現する。 CoCoDiffは最先端のビジュアル品質と強力な定量的結果を提供し、追加のトレーニングやアノテーションに依存する方法よりも優れています。
論文参考訳（メタデータ） (2026-02-16T04:52:29Z)
Refining Context-Entangled Content Segmentation via Curriculum Selection and Anti-Curriculum Promotion [14.803333807611414]
CurriSegは2段階学習フレームワークで、カリキュラムと反カリキュラム原則を統合して表現信頼性を向上させる。カリキュラム選択フェーズでは,サンプル損失の時間統計に基づいて,CurriSegが動的にトレーニングデータを選択する。本稿では, 高周波成分を抑圧し, 低周波構造および文脈条件への依存を強制するスペクトラル・ブラインドネス・ファイン・チューニングを設計する。
論文参考訳（メタデータ） (2026-02-01T12:12:24Z)
Sissi: Zero-shot Style-guided Image Synthesis via Semantic-style Integration [57.02757226679549]
本研究では,文脈内学習タスクとしてスタイル誘導合成を再構成する学習自由フレームワークを提案する。セマンティック・スタイル統合(DSSI)機構を提案する。実験により,本手法はセマンティックスタイルのバランスと視覚的品質に優れた高忠実度スタイリングを実現することが示された。
論文参考訳（メタデータ） (2026-01-10T16:01:14Z)
StyDeco: Unsupervised Style Transfer with Distilling Priors and Semantic Decoupling [5.12285618196312]
StyDecoは、スタイル転送タスクに適したテキスト表現を学習する教師なしのフレームワークである。本フレームワークは, 構造的忠実度と構造的保存性の両方において, 既存手法より優れる。
論文参考訳（メタデータ） (2025-08-02T06:17:23Z)
Only-Style: Stylistic Consistency in Image Generation without Content Leakage [21.68241134664501]
Only-Styleは、スタイリスティックな一貫性を維持しつつ、セマンティックなコヒーレントな方法でコンテンツの漏洩を軽減するために設計された方法である。 Only-Styleは、推論中にコンテンツのリークをローカライズすることで、スタイルアライメントプロセスを制御するパラメータの適応的なチューニングを可能にする。提案手法は,多種多様なインスタンスにまたがる広範囲な評価により,最先端の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-06-11T16:33:09Z)
StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-20T06:46:51Z)
AttenST: A Training-Free Attention-Driven Style Transfer Framework with Pre-Trained Diffusion Models [4.364797586362505]
AttenSTは、トレーニング不要の注意駆動型スタイル転送フレームワークである。本稿では,参照スタイルに自己注意を条件付ける,スタイル誘導型自己注意機構を提案する。また、コンテンツやスタイルの特徴を融合するための二重機能横断機構も導入する。
論文参考訳（メタデータ） (2025-03-10T13:28:36Z)
ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文参考訳（メタデータ） (2024-05-24T07:19:40Z)
RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文参考訳（メタデータ） (2023-05-31T06:59:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。