Fugu-MT 論文翻訳(概要): MOST-Net: A Memory Oriented Style Transfer Network for Face Sketch Synthesis

論文の概要: MOST-Net: A Memory Oriented Style Transfer Network for Face Sketch Synthesis

arxiv url: http://arxiv.org/abs/2202.03596v1
Date: Tue, 8 Feb 2022 01:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-10 03:24:55.158233
Title: MOST-Net: A Memory Oriented Style Transfer Network for Face Sketch Synthesis
Title（参考訳）: MOST-Net:顔スケッチ合成のためのメモリ指向スタイル転送ネットワーク
Authors: Fan Ji, Muyi Sun, Xingqun Qi, Qi Li, Zhenan Sun
Abstract要約: 顔のスケッチ合成はマルチメディアエンターテイメントや法執行機関で広く使われている。現在の画像から画像への変換に基づく顔のスケッチ合成は、小規模なデータセットでは過度に適合する問題に頻繁に遭遇する。限られたデータで高忠実なスケッチを生成することができる顔スケッチ合成のためのエンドツーエンドメモリ指向スタイル転送ネットワーク(MOST-Net)を提案する。
参考スコア（独自算出の注目度）: 41.80739104463557
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Face sketch synthesis has been widely used in multi-media entertainment and law enforcement. Despite the recent developments in deep neural networks, accurate and realistic face sketch synthesis is still a challenging task due to the diversity and complexity of human faces. Current image-to-image translation-based face sketch synthesis frequently encounters over-fitting problems when it comes to small-scale datasets. To tackle this problem, we present an end-to-end Memory Oriented Style Transfer Network (MOST-Net) for face sketch synthesis which can produce high-fidelity sketches with limited data. Specifically, an external self-supervised dynamic memory module is introduced to capture the domain alignment knowledge in the long term. In this way, our proposed model could obtain the domain-transfer ability by establishing the durable relationship between faces and corresponding sketches on the feature level. Furthermore, we design a novel Memory Refinement Loss (MR Loss) for feature alignment in the memory module, which enhances the accuracy of memory slots in an unsupervised manner. Extensive experiments on the CUFS and the CUFSF datasets show that our MOST-Net achieves state-of-the-art performance, especially in terms of the Structural Similarity Index(SSIM).
Abstract（参考訳）: 顔のスケッチ合成はマルチメディアエンターテイメントや法執行機関で広く使われている。最近のディープニューラルネットワークの発展にもかかわらず、人間の顔の多様性と複雑さのために、正確で現実的な顔スケッチ合成は依然として難しい課題である。現在の画像から画像への変換に基づく顔のスケッチ合成は、小規模データセットに関して、しばしば過剰フィッティングの問題に遭遇する。この問題に対処するため、顔スケッチ合成のためのエンドツーエンドメモリ指向スタイル転送ネットワーク(MOST-Net)を提案し、限られたデータで高忠実なスケッチを生成する。具体的には、ドメインアライメントの知識を長期的に捉えるために、外部の自己教師付き動的メモリモジュールを導入する。このようにして,提案モデルでは,顔と対応するスケッチ間の耐久性のある関係を特徴レベルで確立することで,ドメイン転送能力を得ることができた。さらに,メモリモジュールの機能アライメントのための新たなメモリ精細化損失(mr損失)を設計し,教師なし方式でメモリスロットの精度を向上させる。 CUFSとCUFSFデータセットの大規模な実験により、MOST-Netは、特に構造類似度指数(SSIM)の観点から、最先端のパフォーマンスを達成することが示された。

関連論文リスト

Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
Modern Hopfield Networks meet Encoded Neural Representations -- Addressing Practical Considerations [5.272882258282611]
本稿では、符号化された表現をMHNに統合し、パターン分離性を改善し、メタ安定状態を低減するフレームワークであるHopfield HENを紹介する。 HENは、画像と自然言語クエリのヘテロ結合の文脈での検索にも利用でき、したがって、同じドメイン内の部分的コンテンツへのアクセスの制限を取り除くことができる。
論文参考訳（メタデータ） (2024-09-24T19:17:15Z)
CD-NGP: A Fast Scalable Continual Representation for Dynamic Scenes [9.217592165862762]
ビュー合成のための連続的動的ニューラルネットワークプリミティブ(CD-NGP)を提案する。提案手法は時間的および空間的なハッシュエンコーディングから特徴を相乗化して高いレンダリング品質を実現する。本稿では,厳格かつ非剛性な動きを持つマルチビュー,例外的に長いビデオシーケンスからなる新しいデータセットを提案する。
論文参考訳（メタデータ） (2024-09-08T17:35:48Z)
VmambaIR: Visual State Space Model for Image Restoration [36.11385876754612]
VmambaIRは、画像復元タスクに線形に複雑な状態空間モデル(SSM)を導入する。 VmambaIRは、より少ない計算資源とパラメータで最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2024-03-18T02:38:55Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文参考訳（メタデータ） (2023-12-18T13:51:56Z)
GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文参考訳（メタデータ） (2023-03-24T03:32:02Z)
The Multiscale Surface Vision Transformer [10.833580445244094]
表面深層学習のためのバックボーンアーキテクチャとして,Multiscale Surface Vision Transformer (MS-SiT)を導入した。以上の結果から,MS-SiTは新生児の表現型予測タスクにおいて,既存の表面深層学習法よりも優れていた。
論文参考訳（メタデータ） (2023-03-21T15:00:17Z)
Face Sketch Synthesis via Semantic-Driven Generative Adversarial Network [10.226808267718523]
本稿では,グローバルな構造レベルのインジェクションと局所的なクラスレベルの知識再重み付けを組み込んだセマンティック・ドリブン・ジェネレータ・ネットワーク(SDGAN)を提案する。具体的には、入力された顔写真に対して顔の塩分濃度検出を行い、全体的な顔のテクスチャ構造を提供する。さらに,SDGANのジェネレータにグローバルな構造的スタイルの注入を強制する前に,顔解析のレイアウトを意味的空間として活用する。
論文参考訳（メタデータ） (2021-06-29T07:03:56Z)
PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文参考訳（メタデータ） (2021-03-17T08:28:30Z)
Shape My Face: Registering 3D Face Scans by Surface-to-Surface Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文参考訳（メタデータ） (2020-12-16T20:02:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。