論文の概要: StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval
- arxiv url: http://arxiv.org/abs/2103.15706v2
- Date: Wed, 31 Mar 2021 10:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 12:39:54.429914
- Title: StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval
- Title(参考訳): stylemeup: スタイル非依存なスケッチベースの画像検索
- Authors: Aneeshan Sain, Ayan Kumar Bhunia, Yongxin Yang, Tao Xiang, Yi-Zhe Song
- Abstract要約: クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
- 参考スコア(独自算出の注目度): 119.03470556503942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sketch-based image retrieval (SBIR) is a cross-modal matching problem which
is typically solved by learning a joint embedding space where the semantic
content shared between photo and sketch modalities are preserved. However, a
fundamental challenge in SBIR has been largely ignored so far, that is,
sketches are drawn by humans and considerable style variations exist amongst
different users. An effective SBIR model needs to explicitly account for this
style diversity, crucially, to generalise to unseen user styles. To this end, a
novel style-agnostic SBIR model is proposed. Different from existing models, a
cross-modal variational autoencoder (VAE) is employed to explicitly disentangle
each sketch into a semantic content part shared with the corresponding photo,
and a style part unique to the sketcher. Importantly, to make our model
dynamically adaptable to any unseen user styles, we propose to meta-train our
cross-modal VAE by adding two style-adaptive components: a set of feature
transformation layers to its encoder and a regulariser to the disentangled
semantic content latent code. With this meta-learning framework, our model can
not only disentangle the cross-modal shared semantic content for SBIR, but can
adapt the disentanglement to any unseen user style as well, making the SBIR
model truly style-agnostic. Extensive experiments show that our style-agnostic
model yields state-of-the-art performance for both category-level and
instance-level SBIR.
- Abstract(参考訳): スケッチベースの画像検索(SBIR)は、一般的に写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決されるクロスモーダルマッチング問題である。
しかし、SBIRの基本的な課題は、人間によってスケッチが描かれ、異なるユーザ間でかなりのスタイルのバリエーションが存在するという点で、これまでほとんど無視されてきた。
効果的なSBIRモデルは、目に見えないユーザスタイルを一般化するために、このスタイルの多様性を明確に説明する必要がある。
この目的のために,新しいスタイル非依存sbirモデルを提案する。
既存のモデルと異なり、クロスモーダル変分オートエンコーダ(VAE)を用いて、各スケッチを、対応する写真と共有されるセマンティックコンテンツ部と、スケッチヤ固有のスタイル部とに明示的に分離する。
重要なことは、我々のモデルを目に見えないユーザスタイルに動的に適応させるため、エンコーダに特徴変換レイヤのセットと、非絡み合ったセマンティックコンテンツラテントコードに正規化層という2つのスタイル適応型コンポーネントを追加することで、クロスモーダルVAEをメタトレーニングすることを提案する。
このメタラーニングフレームワークにより、我々のモデルはSBIRのクロスモーダルな共有セマンティックコンテンツだけでなく、見知らぬユーザスタイルにも適応できるため、SBIRモデルは本当にスタイルに依存しない。
拡張実験により,我々のスタイルに依存しないモデルでは,カテゴリレベルのSBIRとインスタンスレベルのSBIRの両方で最先端の性能が得られることが示された。
関連論文リスト
- StyleMaster: Towards Flexible Stylized Image Generation with Diffusion Models [42.45078883553856]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像に基づいて画像を生成することを目的としている。
本稿では,事前学習した安定拡散を利用して,StyleMasterと呼ばれる新しいフレームワークを提案する。
2つの目的関数を導入し、モデルを最適化し、損失を減らし、セマンティクスとスタイルの一貫性をさらに強化する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。
そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。
複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文 参考訳(メタデータ) (2023-03-17T08:35:17Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Learning Graph Neural Networks for Image Style Transfer [131.73237185888215]
最先端のパラメトリックおよび非パラメトリックなスタイル転送アプローチは、グローバルな統計アライメントによる局所的なスタイルパターンの歪んだり、パッチミスマッチによるアーティファクトを減らしたりする傾向にある。
本稿では,パラメトリック型と非パラメトリック型の両方のスタイライゼーションの欠如を緩和する,新しい半パラメトリック型ニューラルスタイルトランスファーフレームワークについて検討する。
論文 参考訳(メタデータ) (2022-07-24T07:41:31Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - Towards Controllable and Photorealistic Region-wise Image Manipulation [11.601157452472714]
地域ごとのスタイル操作のための自動エンコーダアーキテクチャを用いた生成モデルを提案する。
我々は、コンテンツとスタイルの潜在表現の明示的な乱れを強制するために、コード一貫性の損失を適用します。
このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。
論文 参考訳(メタデータ) (2021-08-19T13:29:45Z) - Anisotropic Stroke Control for Multiple Artists Style Transfer [36.92721585146738]
Stroke Control Multi-Artist Style Transferフレームワークを開発した。
異方性ストロークモジュール(ASM)は、様々なスタイルで適応的なセマンティック一貫性を持つネットワークを提供する。
単一スケールの条件付き識別器とは対照的に,識別器はマルチスケールのテクスチャの手がかりを捉えることができる。
論文 参考訳(メタデータ) (2020-10-16T05:32:26Z) - Arbitrary Style Transfer via Multi-Adaptation Network [109.6765099732799]
所望のスタイル転送は、内容画像と参照されたスタイル絵が与えられた場合、そのスタイル絵の色調と鮮やかなストロークパターンで内容画像を描画する。
新たな不整合損失関数により,本ネットワークは,様々な入力画像に適応する主文パターンと正確なコンテンツ構造を抽出できる。
論文 参考訳(メタデータ) (2020-05-27T08:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。