Fugu-MT 論文翻訳(概要): Deep Facial Synthesis: A New Challenge

論文の概要: Deep Facial Synthesis: A New Challenge

arxiv url: http://arxiv.org/abs/2112.15439v1
Date: Fri, 31 Dec 2021 13:19:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-03 18:08:14.069351
Title: Deep Facial Synthesis: A New Challenge
Title（参考訳）: ディープ・フェイス・シンセシス:新しい挑戦
Authors: Deng-Ping Fan, Ziling Huang, Peng Zheng, Hong Liu, Xuebin Qin, and Luc Van Gool
Abstract要約: まず,FS2Kという,2,104のイメージスケッチペアからなる高品質なFSSデータセットを提案する。第2に, 古典的手法139点を調査し, 最大規模のFSSについて検討した。第3に、FSGANという単純なFSSのベースラインを提示する。
参考スコア（独自算出の注目度）: 75.99659340231078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of this paper is to conduct a comprehensive study on the facial sketch synthesis (FSS) problem. However, due to the high costs in obtaining hand-drawn sketch datasets, there lacks a complete benchmark for assessing the development of FSS algorithms over the last decade. As such, we first introduce a high-quality dataset for FSS, named FS2K, which consists of 2,104 image-sketch pairs spanning three types of sketch styles, image backgrounds, lighting conditions, skin colors, and facial attributes. FS2K differs from previous FSS datasets in difficulty, diversity, and scalability, and should thus facilitate the progress of FSS research. Second, we present the largest-scale FSS study by investigating 139 classical methods, including 24 handcrafted feature based facial sketch synthesis approaches, 37 general neural-style transfer methods, 43 deep image-to-image translation methods, and 35 image-to-sketch approaches. Besides, we elaborate comprehensive experiments for existing 19 cutting-edge models. Third, we present a simple baseline for FSS, named FSGAN. With only two straightforward components, i.e., facial-aware masking and style-vector expansion, FSGAN surpasses the performance of all previous state-of-the-art models on the proposed FS2K dataset, by a large margin. Finally, we conclude with lessons learned over the past years, and point out several unsolved challenges. Our open-source code is available at https://github.com/DengPingFan/FSGAN.
Abstract（参考訳）: 本研究の目的は,顔のスケッチ合成(FSS)問題に関する包括的研究を行うことである。しかし、手書きのスケッチデータセットを取得するコストが高いため、過去10年間のFSSアルゴリズムの開発を評価するための完全なベンチマークが欠如している。そこで我々はまず,3種類のスケッチスタイル,画像背景,照明条件,肌色,顔属性からなる,fssの高品質データセットであるfs2kを紹介する。 FS2Kは従来のFSSデータセットと難易度、多様性、拡張性が異なるため、FSS研究の進展を促進する。第2に,手作り特徴に基づく顔スケッチ合成手法,37の一般ニューラルスタイル変換法,43のディープイメージ・ツー・イメージ翻訳法,35のイメージ・ツー・スケッチアプローチを含む,139の古典的手法による最大規模のFSS研究を提案する。さらに,既存の19個の最先端モデルに対する包括的実験を行った。第3に、FSGANという単純なFSSのベースラインを示す。 FSGANは、顔認識マスキングとスタイルベクター拡張という2つの単純なコンポーネントだけで、提案されたFS2Kデータセットのすべての最先端モデルのパフォーマンスを大きく上回っている。最後に,過去数年間に学んだ教訓から結論を出し,未解決の課題をいくつか指摘する。当社のオープンソースコードはhttps://github.com/dengpingfan/fsganで利用可能です。

関連論文リスト

SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models [80.90808879991182]
体系的な分析に基づいて、スケッチ理解のための基礎モデルの2つの基本的な限界を明らかにする。 SDとCLIPを戦略的に組み合わせることで,これらの制約に対処する。 CLIPの機能をSDのデノナイズプロセスに動的に注入し,セマンティックレベルでの機能を適応的に集約することにより,スケッチ検索における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-18T10:47:46Z)
High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。 2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2024-09-10T08:04:11Z)
SfM on-the-fly: Get better 3D from What You Capture [24.141351494527303]
Structure from Motion (SfM) は、フォトグラメトリー、コンピュータビジョン、ロボティクスなどの分野で、常に研究のホットスポットとなっている。この作業は、オリジナルのSfMの上に構築され、アップデートされたバージョンには3つの新しい進歩があり、より優れた3Dをキャプチャから得ることができる。
論文参考訳（メタデータ） (2024-07-04T13:52:37Z)
MegaScenes: Scene-Level View Synthesis at Scale [69.21293001231993]
NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。 MegaScenesと呼ばれるインターネット写真コレクションから大規模なシーンレベルのデータセットを作成し、世界中の動き(SfM)から100K以上の構造を復元する。我々は、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。
論文参考訳（メタデータ） (2024-06-17T17:55:55Z)
Enhanced fringe-to-phase framework using deep learning [2.243491254050456]
本稿では、2つのフランジ画像を絶対位相に変換する対称核融合ネットワークであるSFNetを紹介する。出力信頼性を向上させるため,本フレームワークでは,入力として使用するものと異なる周波数のフリンジ画像から情報を取り込むことにより,洗練された位相を予測する。
論文参考訳（メタデータ） (2024-02-01T19:47:34Z)
CLIP for All Things Zero-Shot Sketch-Based Image Retrieval, Fine-Grained or Not [109.69076457732632]
ゼロショットスケッチに基づく画像検索(ZS-SBIR)におけるCLIPの利用私たちはこのシナジーを達成するのにいかに最適かという新しいデザインを提唱した。これまでの最先端技術よりも26.9%の領域で顕著なパフォーマンス向上が観察された。
論文参考訳（メタデータ） (2023-03-23T17:02:00Z)
Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文参考訳（メタデータ） (2023-03-14T10:34:07Z)
Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文参考訳（メタデータ） (2021-12-14T18:33:29Z)
Robust Facial Expression Recognition with Convolutional Visual Transformers [23.05378099875569]
コンボリューションビジュアルトランスフォーマーは、主に2つのステップで野生の表情認識に取り組むために提案します。まず,2分岐CNNが生成する特徴マップを活用するための注意選択融合(ASF)を提案する。第二に,自然言語処理におけるトランスフォーマーの成功に触発されて,これらの視覚単語間の関係をグローバル自己着眼でモデル化することを提案する。
論文参考訳（メタデータ） (2021-03-31T07:07:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。