論文の概要: MOST-Net: A Memory Oriented Style Transfer Network for Face Sketch
Synthesis
- arxiv url: http://arxiv.org/abs/2202.03596v1
- Date: Tue, 8 Feb 2022 01:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 03:24:55.158233
- Title: MOST-Net: A Memory Oriented Style Transfer Network for Face Sketch
Synthesis
- Title(参考訳): MOST-Net:顔スケッチ合成のためのメモリ指向スタイル転送ネットワーク
- Authors: Fan Ji, Muyi Sun, Xingqun Qi, Qi Li, Zhenan Sun
- Abstract要約: 顔のスケッチ合成はマルチメディアエンターテイメントや法執行機関で広く使われている。
現在の画像から画像への変換に基づく顔のスケッチ合成は、小規模なデータセットでは過度に適合する問題に頻繁に遭遇する。
限られたデータで高忠実なスケッチを生成することができる顔スケッチ合成のためのエンドツーエンドメモリ指向スタイル転送ネットワーク(MOST-Net)を提案する。
- 参考スコア(独自算出の注目度): 41.80739104463557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face sketch synthesis has been widely used in multi-media entertainment and
law enforcement. Despite the recent developments in deep neural networks,
accurate and realistic face sketch synthesis is still a challenging task due to
the diversity and complexity of human faces. Current image-to-image
translation-based face sketch synthesis frequently encounters over-fitting
problems when it comes to small-scale datasets. To tackle this problem, we
present an end-to-end Memory Oriented Style Transfer Network (MOST-Net) for
face sketch synthesis which can produce high-fidelity sketches with limited
data. Specifically, an external self-supervised dynamic memory module is
introduced to capture the domain alignment knowledge in the long term. In this
way, our proposed model could obtain the domain-transfer ability by
establishing the durable relationship between faces and corresponding sketches
on the feature level. Furthermore, we design a novel Memory Refinement Loss (MR
Loss) for feature alignment in the memory module, which enhances the accuracy
of memory slots in an unsupervised manner. Extensive experiments on the CUFS
and the CUFSF datasets show that our MOST-Net achieves state-of-the-art
performance, especially in terms of the Structural Similarity Index(SSIM).
- Abstract(参考訳): 顔のスケッチ合成はマルチメディアエンターテイメントや法執行機関で広く使われている。
最近のディープニューラルネットワークの発展にもかかわらず、人間の顔の多様性と複雑さのために、正確で現実的な顔スケッチ合成は依然として難しい課題である。
現在の画像から画像への変換に基づく顔のスケッチ合成は、小規模データセットに関して、しばしば過剰フィッティングの問題に遭遇する。
この問題に対処するため、顔スケッチ合成のためのエンドツーエンドメモリ指向スタイル転送ネットワーク(MOST-Net)を提案し、限られたデータで高忠実なスケッチを生成する。
具体的には、ドメインアライメントの知識を長期的に捉えるために、外部の自己教師付き動的メモリモジュールを導入する。
このようにして,提案モデルでは,顔と対応するスケッチ間の耐久性のある関係を特徴レベルで確立することで,ドメイン転送能力を得ることができた。
さらに,メモリモジュールの機能アライメントのための新たなメモリ精細化損失(mr損失)を設計し,教師なし方式でメモリスロットの精度を向上させる。
CUFSとCUFSFデータセットの大規模な実験により、MOST-Netは、特に構造類似度指数(SSIM)の観点から、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。
VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-03-18T02:38:55Z) - MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for
Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。
初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。
微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文 参考訳(メタデータ) (2024-01-14T10:30:32Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - The Multiscale Surface Vision Transformer [10.833580445244094]
表面深層学習のためのバックボーンアーキテクチャとして,Multiscale Surface Vision Transformer (MS-SiT)を導入した。
以上の結果から,MS-SiTは新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-21T15:00:17Z) - Face Sketch Synthesis via Semantic-Driven Generative Adversarial Network [10.226808267718523]
本稿では,グローバルな構造レベルのインジェクションと局所的なクラスレベルの知識再重み付けを組み込んだセマンティック・ドリブン・ジェネレータ・ネットワーク(SDGAN)を提案する。
具体的には、入力された顔写真に対して顔の塩分濃度検出を行い、全体的な顔のテクスチャ構造を提供する。
さらに,SDGANのジェネレータにグローバルな構造的スタイルの注入を強制する前に,顔解析のレイアウトを意味的空間として活用する。
論文 参考訳(メタデータ) (2021-06-29T07:03:56Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。