論文の概要: Semantix: An Energy Guided Sampler for Semantic Style Transfer
- arxiv url: http://arxiv.org/abs/2503.22344v1
- Date: Fri, 28 Mar 2025 11:34:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:28.853636
- Title: Semantix: An Energy Guided Sampler for Semantic Style Transfer
- Title(参考訳): Semantix:セマンティック・スタイル・トランスファーのためのエネルギーガイド型サンプリング
- Authors: Huiang He, Minghui Hu, Chuanxia Zheng, Chaoyue Wang, Tat-Jen Cham,
- Abstract要約: 本稿では,セマンティック・スタイル・トランスファー(Semantic Style Transfer)という,セマンティック・スタイル・トランスファー(Semantic Style Transfer)という,セマンティック・スタイル・トランスファー(Semantic Style Transfer)という,セマンティック・スタイル・トランスファー(Semantic Style Transfer)というタスクを導入する。
そこで我々は,セマンティックスタイル転送用に設計されたエネルギー誘導型サンプル装置Semantixを提案する。
サンプルとして、Semantixは画像モデルとビデオモデルの両方にシームレスに適用でき、セマンティックスタイルの転送を様々なビジュアルメディア間で汎用化することができる。
- 参考スコア(独自算出の注目度): 33.856860555491544
- License:
- Abstract: Recent advances in style and appearance transfer are impressive, but most methods isolate global style and local appearance transfer, neglecting semantic correspondence. Additionally, image and video tasks are typically handled in isolation, with little focus on integrating them for video transfer. To address these limitations, we introduce a novel task, Semantic Style Transfer, which involves transferring style and appearance features from a reference image to a target visual content based on semantic correspondence. We subsequently propose a training-free method, Semantix an energy-guided sampler designed for Semantic Style Transfer that simultaneously guides both style and appearance transfer based on semantic understanding capacity of pre-trained diffusion models. Additionally, as a sampler, Semantix be seamlessly applied to both image and video models, enabling semantic style transfer to be generic across various visual media. Specifically, once inverting both reference and context images or videos to noise space by SDEs, Semantix utilizes a meticulously crafted energy function to guide the sampling process, including three key components: Style Feature Guidance, Spatial Feature Guidance and Semantic Distance as a regularisation term. Experimental results demonstrate that Semantix not only effectively accomplishes the task of semantic style transfer across images and videos, but also surpasses existing state-of-the-art solutions in both fields. The project website is available at https://huiang-he.github.io/semantix/
- Abstract(参考訳): 近年のスタイルや外見の伝達は印象的だが,ほとんどの手法ではグローバルなスタイルや局所的な外見の伝達を分離し,意味的対応を無視している。
さらに、画像とビデオのタスクは分離して処理されるのが一般的で、ビデオ転送のための統合にはほとんど焦点が当てられていない。
これらの制約に対処するため,セマンティック・スタイル・トランスファー(Semantic Style Transfer)という,セマンティック・スタイル・トランスファー(Semantic Style Transfer)という,セマンティック・スタイル・トランスファー(Semantic Style Transfer)という新たなタスクを導入する。
本研究では,セマンティック・スタイル・トランスファー用に設計されたセマンティック・スタイル・トランスファーのためのセマンティック・スタイル・トランスファーを,事前学習した拡散モデルのセマンティック・コンストラクタ・キャパシティに基づいた,トレーニング不要な手法であるセマンティック・スタイル・トランスファー(Semantix)を提案する。
さらに、サンプルとして、Semantixはイメージモデルとビデオモデルの両方にシームレスに適用でき、セマンティックスタイルの転送をさまざまなビジュアルメディア間で汎用化することができる。
具体的には、SDEによって参照画像とコンテキスト映像の両方をノイズ空間に変換すると、Semantixは、厳密に作り上げられたエネルギー関数を使用してサンプリングプロセスをガイドする:スタイル特徴誘導、空間特徴誘導、セマンティック距離の3つの重要なコンポーネントを含む。
実験結果から,Semantixは画像やビデオ間のセマンティックなスタイル伝達のタスクを効果的に達成するだけでなく,両分野の既存の最先端ソリューションを超越していることがわかった。
プロジェクトのWebサイトはhttps://huiang-he.github.io/semantix/で公開されている。
関連論文リスト
- DiffuseST: Unleashing the Capability of the Diffusion Model for Style Transfer [13.588643982359413]
スタイル転送は、スタイル画像の芸術的表現をコンテンツ画像の構造情報と融合させることを目的としている。
既存の方法は特定のネットワークを訓練したり、事前訓練されたモデルを使ってコンテンツやスタイルの特徴を学習する。
本稿では,テキスト埋め込みと空間的特徴を組み合わせた,新しい学習不要なスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:42:43Z) - Diffusion-based Human Motion Style Transfer with Semantic Guidance [23.600154466988073]
拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
論文 参考訳(メタデータ) (2024-03-20T05:52:11Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - STALP: Style Transfer with Auxiliary Limited Pairing [36.23393954839379]
本稿では,1対のソース画像と,そのスタイリング画像を用いた画像の例ベーススタイリング手法を提案する。
本研究では,対象画像に対するリアルタイムな意味論的スタイル転送が可能な画像翻訳ネットワークの訓練方法を示す。
論文 参考訳(メタデータ) (2021-10-20T11:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。