論文の概要: Deep Facial Synthesis: A New Challenge
- arxiv url: http://arxiv.org/abs/2112.15439v1
- Date: Fri, 31 Dec 2021 13:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 18:08:14.069351
- Title: Deep Facial Synthesis: A New Challenge
- Title(参考訳): ディープ・フェイス・シンセシス:新しい挑戦
- Authors: Deng-Ping Fan, Ziling Huang, Peng Zheng, Hong Liu, Xuebin Qin, and Luc
Van Gool
- Abstract要約: まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。
第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。
第3に、FSGANという単純なFSSのベースラインを提示する。
- 参考スコア(独自算出の注目度): 75.99659340231078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to conduct a comprehensive study on the facial
sketch synthesis (FSS) problem. However, due to the high costs in obtaining
hand-drawn sketch datasets, there lacks a complete benchmark for assessing the
development of FSS algorithms over the last decade. As such, we first introduce
a high-quality dataset for FSS, named FS2K, which consists of 2,104
image-sketch pairs spanning three types of sketch styles, image backgrounds,
lighting conditions, skin colors, and facial attributes. FS2K differs from
previous FSS datasets in difficulty, diversity, and scalability, and should
thus facilitate the progress of FSS research. Second, we present the
largest-scale FSS study by investigating 139 classical methods, including 24
handcrafted feature based facial sketch synthesis approaches, 37 general
neural-style transfer methods, 43 deep image-to-image translation methods, and
35 image-to-sketch approaches. Besides, we elaborate comprehensive experiments
for existing 19 cutting-edge models. Third, we present a simple baseline for
FSS, named FSGAN. With only two straightforward components, i.e., facial-aware
masking and style-vector expansion, FSGAN surpasses the performance of all
previous state-of-the-art models on the proposed FS2K dataset, by a large
margin. Finally, we conclude with lessons learned over the past years, and
point out several unsolved challenges. Our open-source code is available at
https://github.com/DengPingFan/FSGAN.
- Abstract(参考訳): 本研究の目的は,顔のスケッチ合成(FSS)問題に関する包括的研究を行うことである。
しかし、手書きのスケッチデータセットを取得するコストが高いため、過去10年間のFSSアルゴリズムの開発を評価するための完全なベンチマークが欠如している。
そこで我々はまず,3種類のスケッチスタイル,画像背景,照明条件,肌色,顔属性からなる,fssの高品質データセットであるfs2kを紹介する。
FS2Kは従来のFSSデータセットと難易度、多様性、拡張性が異なるため、FSS研究の進展を促進する。
第2に,手作り特徴に基づく顔スケッチ合成手法,37の一般ニューラルスタイル変換法,43のディープイメージ・ツー・イメージ翻訳法,35のイメージ・ツー・スケッチアプローチを含む,139の古典的手法による最大規模のFSS研究を提案する。
さらに,既存の19個の最先端モデルに対する包括的実験を行った。
第3に、FSGANという単純なFSSのベースラインを示す。
FSGANは、顔認識マスキングとスタイルベクター拡張という2つの単純なコンポーネントだけで、提案されたFS2Kデータセットのすべての最先端モデルのパフォーマンスを大きく上回っている。
最後に,過去数年間に学んだ教訓から結論を出し,未解決の課題をいくつか指摘する。
当社のオープンソースコードはhttps://github.com/dengpingfan/fsganで利用可能です。
関連論文リスト
- High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - SfM on-the-fly: Get better 3D from What You Capture [24.141351494527303]
Structure from Motion (SfM) は、フォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野で、常に研究のホットスポットとなっている。
この作業は、オリジナルのSfMの上に構築され、アップデートされたバージョンには3つの新しい進歩があり、より優れた3Dをキャプチャから得ることができる。
論文 参考訳(メタデータ) (2024-07-04T13:52:37Z) - MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。
MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。
我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-17T17:55:55Z) - Enhanced fringe-to-phase framework using deep learning [2.243491254050456]
本稿では、2つのフランジ画像を絶対位相に変換する対称核融合ネットワークであるSFNetを紹介する。
出力信頼性を向上させるため,本フレームワークでは,入力として使用するものと異なる周波数のフリンジ画像から情報を取り込むことにより,洗練された位相を予測する。
論文 参考訳(メタデータ) (2024-02-01T19:47:34Z) - CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained
or Not [109.69076457732632]
ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用
私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。
これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
論文 参考訳(メタデータ) (2023-03-23T17:02:00Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。
本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文 参考訳(メタデータ) (2021-12-14T18:33:29Z) - Robust Facial Expression Recognition with Convolutional Visual
Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。
まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。
第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文 参考訳(メタデータ) (2021-03-31T07:07:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。