論文の概要: Deep Facial Synthesis: A New Challenge
- arxiv url: http://arxiv.org/abs/2112.15439v1
- Date: Fri, 31 Dec 2021 13:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 18:08:14.069351
- Title: Deep Facial Synthesis: A New Challenge
- Title(参考訳): ディープ・フェイス・シンセシス:新しい挑戦
- Authors: Deng-Ping Fan, Ziling Huang, Peng Zheng, Hong Liu, Xuebin Qin, and Luc
Van Gool
- Abstract要約: まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。
第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。
第3に、FSGANという単純なFSSのベースラインを提示する。
- 参考スコア(独自算出の注目度): 75.99659340231078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to conduct a comprehensive study on the facial
sketch synthesis (FSS) problem. However, due to the high costs in obtaining
hand-drawn sketch datasets, there lacks a complete benchmark for assessing the
development of FSS algorithms over the last decade. As such, we first introduce
a high-quality dataset for FSS, named FS2K, which consists of 2,104
image-sketch pairs spanning three types of sketch styles, image backgrounds,
lighting conditions, skin colors, and facial attributes. FS2K differs from
previous FSS datasets in difficulty, diversity, and scalability, and should
thus facilitate the progress of FSS research. Second, we present the
largest-scale FSS study by investigating 139 classical methods, including 24
handcrafted feature based facial sketch synthesis approaches, 37 general
neural-style transfer methods, 43 deep image-to-image translation methods, and
35 image-to-sketch approaches. Besides, we elaborate comprehensive experiments
for existing 19 cutting-edge models. Third, we present a simple baseline for
FSS, named FSGAN. With only two straightforward components, i.e., facial-aware
masking and style-vector expansion, FSGAN surpasses the performance of all
previous state-of-the-art models on the proposed FS2K dataset, by a large
margin. Finally, we conclude with lessons learned over the past years, and
point out several unsolved challenges. Our open-source code is available at
https://github.com/DengPingFan/FSGAN.
- Abstract(参考訳): 本研究の目的は,顔のスケッチ合成(FSS)問題に関する包括的研究を行うことである。
しかし、手書きのスケッチデータセットを取得するコストが高いため、過去10年間のFSSアルゴリズムの開発を評価するための完全なベンチマークが欠如している。
そこで我々はまず,3種類のスケッチスタイル,画像背景,照明条件,肌色,顔属性からなる,fssの高品質データセットであるfs2kを紹介する。
FS2Kは従来のFSSデータセットと難易度、多様性、拡張性が異なるため、FSS研究の進展を促進する。
第2に,手作り特徴に基づく顔スケッチ合成手法,37の一般ニューラルスタイル変換法,43のディープイメージ・ツー・イメージ翻訳法,35のイメージ・ツー・スケッチアプローチを含む,139の古典的手法による最大規模のFSS研究を提案する。
さらに,既存の19個の最先端モデルに対する包括的実験を行った。
第3に、FSGANという単純なFSSのベースラインを示す。
FSGANは、顔認識マスキングとスタイルベクター拡張という2つの単純なコンポーネントだけで、提案されたFS2Kデータセットのすべての最先端モデルのパフォーマンスを大きく上回っている。
最後に,過去数年間に学んだ教訓から結論を出し,未解決の課題をいくつか指摘する。
当社のオープンソースコードはhttps://github.com/dengpingfan/fsganで利用可能です。
関連論文リスト
- Enhanced fringe-to-phase framework using deep learning [2.243491254050456]
本稿では、2つのフランジ画像を絶対位相に変換する対称核融合ネットワークであるSFNetを紹介する。
出力信頼性を向上させるため,本フレームワークでは,入力として使用するものと異なる周波数のフリンジ画像から情報を取り込むことにより,洗練された位相を予測する。
論文 参考訳(メタデータ) (2024-02-01T19:47:34Z) - FSGS: Real-Time Few-shot View Synthesis using Gaussian Splatting [63.8093511389908]
本稿では,3次元ガウススプラッティングに基づく数ショットビュー合成フレームワークを提案する。
このフレームワークは3つのトレーニングビューでリアルタイムおよびフォトリアリスティックなビュー合成を可能にする。
FSGSは、さまざまなデータセットの精度とレンダリング効率の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T09:30:02Z) - DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T06:33:49Z) - CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not [109.69076457732632]
ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用
私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。
これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
論文 参考訳(メタデータ) (2023-03-23T17:02:00Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。
本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文 参考訳(メタデータ) (2021-12-14T18:33:29Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z) - Structure-Aware Face Clustering on a Large-Scale Graph with
$\bf{10^{7}}$ Nodes [76.6700928596238]
大規模トレーニングデータのパワーを探索する構造保存サブグラフサンプリング戦略を提案する。
STAR-FCは310秒以内に部分的なMS1Mで91.97Fスコアを得る。
論文 参考訳(メタデータ) (2021-03-24T14:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。