論文の概要、ライセンス

# (参考訳) スケッチから写真への合成における逆開領域適応 [全文訳有]

Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis ( http://arxiv.org/abs/2104.05703v1 )

ライセンス: CC BY 4.0
Xiaoyu Xiang, Ding Liu, Xiao Yang, Yiheng Zhu, Xiaohui Shen, Jan P. Allebach(参考訳) 本稿では,学習データにそのクラスのスケッチが欠落している場合でも,フリーハンドスケッチからリアルな写真をクラスラベルで合成することを目的とした,オープンドメインのスケッチ・ツー・フォト翻訳について検討する。 トレーニング監督の欠如とフリーハンドスケッチとフォトドメイン間の大きな幾何学的歪みのため、これは困難である。 写真から欠落したフリーハンドスケッチを合成するために,スケッチ・ツー・フォトと写真・スケッチ生成を共同で学習するフレームワークを提案する。 しかし、偽のスケッチから訓練されたジェネレータは、合成されたスケッチと実際のスケッチのドメインギャップのため、欠落したクラスのスケッチを扱う際に不満足な結果をもたらす可能性がある。 この問題を軽減するために,我々は,ジェネレータを偽スケッチを現実のスケッチとして扱えるようにするための,シンプルで効果的なオープンドメインサンプリングと最適化戦略を提案する。 本手法は,インドメインデータのスケッチ・ツー・フォトおよびフォト・ツー・スケッチマッピングを活用し,それらをオープンドメインクラスに一般化する。 ScribbleとSketchyCOCOのデータセット上で本手法を検証する。 近年の競合手法と比較して,本手法はリアルな色やテクスチャを合成し,様々なカテゴリのオープンドメインスケッチの幾何学的構成を維持できることを示す。

In this paper, we explore the open-domain sketch-to-photo translation, which aims to synthesize a realistic photo from a freehand sketch with its class label, even if the sketches of that class are missing in the training data. It is challenging due to the lack of training supervision and the large geometry distortion between the freehand sketch and photo domains. To synthesize the absent freehand sketches from photos, we propose a framework that jointly learns sketch-to-photo and photo-to-sketch generation. However, the generator trained from fake sketches might lead to unsatisfying results when dealing with sketches of missing classes, due to the domain gap between synthesized sketches and real ones. To alleviate this issue, we further propose a simple yet effective open-domain sampling and optimization strategy to "fool" the generator into treating fake sketches as real ones. Our method takes advantage of the learned sketch-to-photo and photo-to-sketch mapping of in-domain data and generalizes them to the open-domain classes. We validate our method on the Scribble and SketchyCOCO datasets. Compared with the recent competing methods, our approach shows impressive results in synthesizing realistic color, texture, and maintaining the geometric composition for various categories of open-domain sketches.
公開日: Mon, 12 Apr 2021 17:58:46 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis スケッチから写真への合成における逆開領域適応 0.48
Xiaoyu Xiang1*, Ding Liu2, Xiao Yang2, Yiheng Zhu2, Xiaohui Shen2, Jan P. Allebach1 Xiaoyu Xiang1*, Ding Liu2, Xiao Yang2, Yiheng Zhu2, Xiaohui Shen2, Jan P. Allebach1 0.90
1Purdue University, 2ByteDance Inc. 1Purdue University, 2ByteDance Inc. 0.92
{xiang43,allebach}@purdue.edu, {xiang43,allebach}@purdue.edu, 0.88
{liuding,yangxiao.0,y iheng.zhu,shenxiaohu i}@bytedance.com {liuding,yangxiao.0,y iheng.zhu,shenxiaohu i}@bytedance.com 0.78
1 2 0 2 r p A 2 1 1 2 0 2 r p A 2 1 0.85
] V C . ] 略称はC。 0.67
s c [ 1 v 3 0 7 5 0 sc [ 1 v 3 0 7 5 0 0.68
. 4 0 1 2 : v i X r a . 4 0 1 2 : v i X r a 0.85
Abstract In this paper, we explore the open-domain sketch-tophoto translation, which aims to synthesize a realistic photo from a freehand sketch with its class label, even if the sketches of that class are missing in the training data. 概要 本稿では,学習データにそのクラスのスケッチが欠落している場合でも,フリーハンドスケッチからリアルな写真をクラスラベルで合成することを目的とした,オープンドメインのスケッチ・写真翻訳について検討する。 0.59
It is challenging due to the lack of training supervision and the large geometry distortion between the freehand sketch and photo domains. トレーニング監督の欠如とフリーハンドスケッチとフォトドメイン間の大きな幾何学的歪みのため、これは困難である。 0.72
To synthesize the absent freehand sketches from photos, we propose a framework that jointly learns sketch-to-photo and photo-to-sketch generation. 写真から欠落したフリーハンドスケッチを合成するために,スケッチ・ツー・フォトと写真・スケッチ生成を共同で学習するフレームワークを提案する。 0.54
However, the generator trained from fake sketches might lead to unsatisfying results when dealing with sketches of missing classes, due to the domain gap between synthesized sketches and real ones. しかし、偽のスケッチから訓練されたジェネレータは、合成されたスケッチと実際のスケッチのドメインギャップのため、欠落したクラスのスケッチを扱う際に不満足な結果をもたらす可能性がある。 0.51
To alleviate this issue, we further propose a simple yet effective open-domain sampling and optimization strategy to “fool” the generator into treating fake sketches as real ones. この問題を軽減するために,我々は,ジェネレータを偽のスケッチを現実のスケッチとして扱えるようにするための,シンプルで効果的なオープンドメインサンプリングと最適化戦略を提案する。 0.62
Our method takes advantage of the learned sketch-to-photo and photo-to-sketch mapping of in-domain data and generalizes them to the open-domain classes. 本手法は,インドメインデータのスケッチ・ツー・フォトおよびフォト・ツー・スケッチマッピングを活用し,それらをオープンドメインクラスに一般化する。 0.51
We validate our method on the Scribble and SketchyCOCO datasets. ScribbleとSketchyCOCOのデータセット上で本手法を検証する。 0.68
Compared with the recent competing methods, our approach shows impressive results in synthesizing realistic color, texture, and maintaining the geometric composition for various categories of open-domain sketches. 近年の競合手法と比較して,本手法はリアルな色やテクスチャを合成し,様々なカテゴリのオープンドメインスケッチの幾何学的構成を維持できることを示す。 0.75
1. Introduction Freehand sketch is an intuitive way for users to interact on visual media and express their intentions. 1. はじめに freehand sketchは、ユーザーがビジュアルメディアで対話し、意図を表現するための直感的な方法だ。 0.69
The popularization of touch screens provides more and more scenarios for sketch-based application, e g sketch-based photoediting [59, 12, 27, 52, 72], sketch-based image retrieval for 2D images [75, 64, 43, 76, 73, 55, 14, 10, 15, 3, 42] and 3D shapes [68, 78, 11, 71, 5], and 3D modeling from sketches [48, 22, 61]. タッチスクリーンの普及により、スケッチベースのアプリケーションにおいて、スケッチベースの画像編集 [59, 12, 27, 52, 72]、スケッチベースの2D画像検索 [75, 64, 43, 76, 73, 55, 14 10, 15, 3, 42]、および3D形状 [68, 78, 11, 71, 5]、スケッチからの3Dモデリング [48, 22 61] など、ますます多くのシナリオが提供される。 0.72
Sketch-to-photo translation aims to automatically translate a sketch in the source domain S to the target photo- Sketch-to- Photo Translationは、ソースドメインSのスケッチを自動的に対象の写真に翻訳する。
訳抜け防止モード: スケッチ - to - 写真翻訳の目的 ソースドメインsのスケッチを対象写真に自動翻訳する。
0.69
*This work was done as a part of internship at ByteDance. ※これはByteDanceのインターンシップの一環として行われた。 0.69
Figure 1: Illustration of open-domain sketch-to-photo synthesis problem. 図1: オープンドメインスケッチ-写真合成問題の図示。 0.77
During the training stage of multi-class sketch-to-photo generation, sketches of some categories are missing. 多クラススケッチツーフォト生成のトレーニング段階では、いくつかのカテゴリのスケッチが欠落している。 0.57
In the inference stage, our algorithm synthesizes photos from the input sketches for not only known classes, but also the classes that were missing during the training. 推定段階では,入力スケッチからの画像を,既知のクラスだけでなく,トレーニング中に欠落したクラスに対しても合成する。 0.75
realistic domain P . 現実的なドメインP。 0.58
Many existing works [26, 9, 47, 19, 38, 18, 6, 39] adopt generative adversarial networks (GAN) [20] to learn the sketch-to-image process from paired data. 26, 9, 47, 19, 38, 18, 6, 39] 既存の著作物の多くは、ペアデータからスケッチから画像へのプロセスを学ぶために、generative adversarial networks (gan) [20]を採用している。
訳抜け防止モード: 現存する作品(26、9、47、19) 38, 18, 6, 39 ] 生成的敵ネットワーク (GAN ) [20 ] to learn the sketch - to - image process from paired data。
0.75
However, the sketch-to-photo translation task suffers from the open-domain adaptation problem, where the majority of data is unlabeled and unpaired [16, 40, 36, 21, 81, 4, 37], and the freehand sketch covers only a small portion of the photo categories [60, 75, 64, 46, 19] due to the fact that they require a large number of human annotations. しかし、このスケッチ・ツー・フォト翻訳タスクは、データの大半がラベル付けされていない(16,40,36,21,81,4,37 ]というオープンドメイン適応問題に悩まされ、フリーハンドスケッチは、大量の人間のアノテーションを必要とするため、写真カテゴリ(60,75,64,46,19)のごく一部しかカバーしていない。
訳抜け防止モード: しかし、スケッチ - to - 写真翻訳タスクは、オープンなドメイン適応の問題に悩まされる。 データの大部分がラベルが付けられていない[16]場合 40, 36, 21, 81, 4, 37 ], フリーハンドのスケッチは、大量の人間のアノテーションを必要とするため、写真カテゴリのごく一部 [60, 75, 64, 46, 19 ] しかカバーしていません。
0.74
Therefore, some works [26, 38, 6, 39] use edges extracted from the target photos as substitution. そのため、対象写真から抽出したエッジを代替として使用する作品(26,38,6,39)もある。 0.63
Still, edges and freehand sketches are very different: freehand sketches are human abstractions of an object, usually with more deformations. それでも、エッジとフリーハンドのスケッチは、非常に異なる:フリーハンドのスケッチは、オブジェクトの人間の抽象であり、通常、より多くの変形を伴う。
訳抜け防止モード: それでもエッジとフリーハンドのスケッチはとても違う フリーハンドスケッチは、通常、より変形したオブジェクトの人間の抽象化である。
0.64
Due to this domain gap, models trained on the edge inputs easily fail to generalize to freehand sketches. このドメインギャップのため、エッジ入力でトレーニングされたモデルは、簡単にフリーハンドスケッチに一般化できない。 0.55
A good sketch-based image generator should not only fill the correct textures within the lines, but also correct the object structure conditioned on the input composition. 優れたスケッチベースのイメージジェネレータは、ライン内の正しいテクスチャを埋めるだけでなく、入力構成に条件付けられたオブジェクト構造を修正すべきである。 0.72
Well-labeled freehand sketches and photos can help the translation model better understand the geometry correspondence. よくラベルされたフリーハンドのスケッチと写真は、翻訳モデルが幾何学的対応をより理解するのに役立ちます。
訳抜け防止モード: うーん - フリーハンドのスケッチと写真 翻訳モデルは 幾何学的対応をよりよく理解できます
0.65
In recent years, [79, 44, 25, 34, 31, 46] aim 近年では[79, 44, 25, 34, 31, 46]目標 0.72
1 Inference stagecookiewatermelo nstrawberrymoonAODA……Training stage…missingmissing…cookiewatermelonstra wberrymoonAODA 1 推論 ステージクッキー ウォーターメロン ベリーモオナオダ... 訓練段階... ミスミス... クッキーウォーターメロン ベリーモオナオダ 0.48
英語(論文から抽出)日本語訳スコア
to learn from unpaired sketches and photos collected separately. 別々に収集した未舗装のスケッチや写真から学ぶ。 0.64
Even so, the existing sketch datasets cannot cover all types of photos in the open domain [53]: the largest sketch dataset Quick, Draw! それでも、既存のスケッチデータセットは、オープンドメイン内のすべての種類の写真をカバーできません [53]: 最大のスケッチデータセットであるQuick, Draw! 0.80
[21] has 345 categories, while the full ImageNet [13] has as many as 21,841 class labels. 21] には345のカテゴリがあり、imagenet [13] には21,841のクラスラベルがある。 0.79
Therefore, most categories even lack corresponding freehand sketches to train a sketch-to-image translation model. したがって、ほとんどのカテゴリは、スケッチから画像への翻訳モデルを訓練するために対応するフリーハンドスケッチを欠いている。 0.51
To resolve this challenging task, we propose an Adversarial Open Domain Adaption (AODA) framework that for the first time learns to synthesize the absent freehand sketches and makes the unsupervised open-domain adaption possible, as illustrated in Figure 1. この課題を解決するために,第1図に示すように,まずフリーハンドスケッチの合成を学び,教師なしのオープンドメイン適応を可能にする,敵対的オープンドメイン適応(aoda)フレームワークを提案する。 0.74
We propose to jointly learn a sketch-to-photo translation network and a photo-to-sketch translation network for mapping the opendomain photos into the sketches with the GAN priors. オープンドメインの画像をganプリエントでスケッチにマッピングするための,スケッチから写真への翻訳ネットワークとフォトからスケッチへの翻訳ネットワークを共同学習することを提案する。 0.65
With the bridge of the photo-to-sketch generation, we can generalize the learned correspondence between in-domain freehand sketches and photos to open-domain categories. photo-to-sketch生成の橋渡しによって、ドメイン内のフリーハンドスケッチと写真の間の学習した対応を、オープンドメインのカテゴリに一般化することができる。 0.50
Still, there is an unignorable domain gap between synthesized sketches and real ones, which prevents the generator from generalizing the learned correspondence to real sketches and synthesizing realistic photos for open-domain classes. それでも、合成スケッチと実際のスケッチとの間には無視できない領域ギャップがあり、これはジェネレータが実際のスケッチへの学習された対応を一般化し、オープンドメインクラスの現実的な写真を合成することを妨げる。 0.50
To further mitigate its influence on the generator and leverage the output quality of open-domain translation, we introduce a simple yet effective random-mixed sampling strategy that considers a certain proportion of fake sketches as real ones blindly for all categories. さらに, 生成器への影響を緩和し, オープンドメイン翻訳の出力品質を活用するため, 偽スケッチの一定割合を全カテゴリに対して盲目的に考える, 単純かつ効果的なランダム混合サンプリング戦略を提案する。 0.83
With the proposed framework and training strategy, our model is able to synthesize a photo-realistic output even for sketches of unseen classes. 提案したフレームワークとトレーニング戦略により,未確認クラスのスケッチであっても,本モデルは写真リアルな出力を合成できる。 0.76
We compare the proposed AODA to existing unpaired sketch-to-image generation approaches. 提案したAODAと既存のスケッチ・ツー・イメージ生成手法を比較した。 0.49
Both qualitative and quantitative results show that our proposed method achieves significantly superior performance on both seen and unseen data. 定性的および定量的な結果から,本手法は観測データと未観測データの両方において有意に優れた性能が得られることがわかった。 0.55
• We propose the adversarial open-domain adaption (AODA) framework as the first attempt to solve the open-domain multi-class sketch-to-photo synthesis problem by learning to generate the missing freehand sketches. • 不足したフリーハンドスケッチを生成するために学習することにより、オープンドメインのマルチクラススケッチから写真合成問題を解く最初の試みとして、adversarial open-domain adaption(aoda)フレームワークを提案する。 0.63
• We introduce an open-domain training strategy by considering certain fake sketches as real ones to reduce the generator’s bias of synthesized sketches and leverage the generalization of adversarial domain adaption, thus achieve more faithful generation for open-domain classes. •特定の偽スケッチを実際のスケッチとして考慮し、合成スケッチの生成者のバイアスを低減し、逆のドメイン適応の一般化を活用し、オープンドメインクラスに対してより忠実な生成を実現するオープンドメイントレーニング戦略を導入する。 0.66
• Our network provides, as a byproduct, a high-quality freehand sketch extractor for arbitrary photos. •我々のネットワークは、副産物として、任意の写真のための高品質なフリーハンドスケッチ抽出機を提供する。 0.64
Extensive experiments and user studies on diverse datasets demonstrate that our model can faithfully synthesize realistic photos for different categories of open-domain freehand sketches. 多様なデータセットに関する広範囲な実験とユーザ研究は、オープンドメインフリーハンドスケッチの異なるカテゴリのリアルな写真を忠実に合成できることを示しています。 0.60
The source code and pre-trained models will be released soon. ソースコードと事前訓練されたモデルはまもなくリリースされる。 0.66
2. Related Work Sketch-Based Image Synthesis The goal of sketch-based image synthesis is to output a target image from a given sketch. 2. 関連する作業スケッチに基づく画像合成 スケッチに基づく画像合成の目標は、与えられたスケッチから対象画像を出力することである。 0.77
Early works [7, 17, 8] regard freehand sketches as queries or constraints to retrieve each composition and stitch them into a picture. 初期の作品[7, 17, 8]では、フリーハンドスケッチをクエリや制約として捉えて、各コンポジションを取得して、絵に縫い付ける。
訳抜け防止モード: 初期の作品(7, 17, 8 ]はフリーハンドスケッチをクエリや制約と見なしている それぞれの作品を取り出して 写真に縫い付けます
0.73
In recent years, an increasing number of works adopt GAN-based models [20] to learn pixel-wise translation between sketches and photos directly. 近年,スケッチと写真間の画素変換を直接学習するために,GANモデル[20]を採用する作品が増えている。 0.81
[79, 38, 6] train their networks with pairs of photos and corresponding edge maps due to the lack of real sketch data. 79, 38, 6]は、実際のスケッチデータがないために、ペアの写真と対応するエッジマップでネットワークをトレーニングします。 0.75
However, the freehand sketches are usually distorted in shape compared with the target photo. しかし、フリーハンドスケッチは通常、対象写真と比較して形状が歪んでいる。 0.73
Even when depicting the same object, the sketches from different users vary in appearance due to differences in their drawing skills and the levels of abstractness. 同じオブジェクトを描いても、異なるユーザからのスケッチは、描画スキルや抽象性のレベルの違いによって、外観が異なります。 0.75
To make the model applicable to freehand sketches, SketchyGAN [9] trained with both sketches and augmented edge maps. フリーハンドスケッチに適用できるように、スケッチと拡張エッジマップの両方でトレーニングしたSketchyGAN [9]。 0.63
ContextualGAN [47] turns the image generation problem into an image completion problem: the network learns the joint distribution of sketch and image pairs and acquires the result by iteratively traversing the manifold. contextgan [47] は画像生成問題を画像補完問題に変換する: ネットワークはスケッチと画像ペアの合同分布を学習し、多様体を反復的に横断することで結果を得る。 0.82
iSketchNFill [19] uses simple outlines to represent freehand sketches and generates photos from partial strokes with two-stage generators. isketchnfill [19]は、簡単なアウトラインを使ってフリーハンドのスケッチを表現し、2段階のジェネレータで部分的なストロークから写真を生成する。
訳抜け防止モード: iSketchNFill [19 ] は簡単なアウトラインを使ってフリーハンドスケッチを表現する 2つのステージジェネレータで部分的なストロークから写真を生成する。
0.64
Gao et al [18] applies two generators to synthesize the foreground and background respectively and proposes a novel GAN structure to encode the edge maps and corresponding photos into a shared latent space. Gao et al [18] は、それぞれ前景と背景を合成する2つのジェネレータを適用し、エッジマップと対応する写真を共有潜在空間にエンコードする新しいGAN構造を提案する。 0.77
The above works are supervised based on paired data. 上記の作業は、ペアデータに基づいて監督される。 0.60
Liu et al [46] proposes a two-stage model for the unsupervised sketch-to-photo generation with reference images in a single class. Liu et al [46] は,参照画像を用いた教師なしスケッチ・ツー・フォト生成のための2段階モデルを提案する。 0.67
Compared with these works, our problem setting is more challenging: we aim to learn the multi-class generation without supervision using paired data from an incomplete and heavily unbalanced dataset. 私たちは、不完全で非常にバランスの取れないデータセットからペアデータを使用した監視なしで、マルチクラス生成を学ぼうとしています。 0.64
Conditional Image Generation Image generation can be controlled by class-condition [19, 18], reference images [47, 45, 46], or specific semantic features [29, 56, 80], etc. 条件画像生成画像生成は、クラス条件[19,18]、参照画像[47,45,46]、特定の意味特徴[29,56,80]等によって制御することができる。 0.73
The pioneering work cGAN [49] combines the input noise with the condition for generator and discriminator. 先駆的な作業cGAN[49]は、入力ノイズとジェネレータと判別器の条件を結合する。 0.74
To help the generator synthesize images based on the input label, AC-GAN [51] makes the discriminator also predict the class labels. AC-GAN[51]は、入力ラベルに基づく画像の合成を支援するため、識別器にもクラスラベルを予測させる。 0.72
SGAN [50] unifies the idea of discriminator and classifier by including the fake images as a new class. SGAN[50]は、偽画像を新しいクラスとして含め、識別器と分類器の考えを統一する。 0.75
In this paper, we adopt a photo classifier that is jointly trained with the generator and discriminator to supervise the sketch-to-photo generator’s training. 本稿では,写真生成器と識別器を共同で訓練し,スケッチ・ツー・フォト・ジェネレータの訓練を監督するフォト分類器を提案する。 0.65
3. Adversarial Open Domain Adaption 3. Adversarial Open Domain Adaption 0.85
First, we discuss the challenge of the open-domain generation problem and the limitation of previous methods in Section 3.1. まず、第3.1節では、オープンドメイン生成問題の課題と、これまでの方法の限界について論じる。 0.58
Then we introduce our proposed solution, including our AODA framework and the proposed training strategy in Section 3.2. 次に,我々のaodaフレームワークと提案するトレーニング戦略を含む提案ソリューションをセクション3.2で紹介する。 0.79
2 2 0.85
英語(論文から抽出)日本語訳スコア
Edge −→ Output Real Sketch −→ Output 縁 -→出力 Real Sketch -→ Output 0.70
Fake Sketch −→ Output Fake Sketch -→ Output 0.83
Real Sketch −→ Output Real Sketch -→ Output 0.83
Figure 2: Results of photo synthesis from edge inputs and real sketch inputs generated by a model trained with xDoG edges and photos from the SketchyCOCO dataset [18]. 図2: エッジ入力からの写真合成結果と、xDoGエッジで訓練されたモデルによって生成された実際のスケッチ入力結果と、SketchyCOCOデータセットからの写真 [18]。 0.68
The left two columns show the xDoG inputs and their outputs, and the right two columns are the real freehand sketch inputs and the corresponding unsatisfactory outputs, which shows that the model simply trained with edges cannot rectify the distorted shapes of freehand sketches. 左の2つの列はxDoG入力とその出力を示し、右の2つの列は実際のフリーハンドスケッチ入力であり、それに対応する不満足な出力である。
訳抜け防止モード: 左の2つの列は xDoG の入力とその出力を示しています。 右の2つの列は 本物のフリーハンドのスケッチ入力で そしてそれに対応する不満足な出力は エッジで訓練されたモデルは フリーハンドスケッチの歪んだ形を 修正できない
0.77
3.1. Challenge Unlike previous sketch-to-photo synthesis works [9, 19] that can directly learn the mapping between the input sketch and its corresponding photo, during the training stage, the sketches of open-domain classes are missing. 3.1. 挑戦 入力スケッチと対応する写真とのマッピングを直接学習できる従来のスケッチから写真への合成(9, 19]とは異なり、トレーニング段階では、オープンドメインクラスのスケッチが欠落している。 0.74
To enable the network to learn to synthesize photos from sketches of both in-domain classes and open-domain classes, there are two ways to solve this problem: (1) training with extracted edge maps and (2) enriching the open-domain classes with synthesized sketches from a pre-trained photo-to-sketch extractor. ネットワークがドメイン内クラスとオープンドメインクラスのスケッチから写真を合成できるようにするためには,(1)抽出したエッジマップによるトレーニングと(2)事前学習したフォト・ツー・スケッチ抽出器からのスケッチによるオープンドメインクラスの強化の2つの方法がある。 0.76
We show the results of these two methods and discuss their limitations. これら2つの手法の結果を示し,その限界について議論する。 0.62
Edge Maps. Figure 2 shows the results of a model trained on edges extracted by XDoG [70]. エッジマップ。 図2は、XDoG[70]によって抽出されたエッジでトレーニングされたモデルの結果を示しています。 0.64
While the model can generate vivid highlights and shadows and fine details from the edge inputs, the images generated from the actual freehand sketches are not that photo-realistic, but more like a colored drawing. モデルは、エッジ入力から鮮明なハイライトやシャドウ、詳細を生成できるが、実際のフリーハンドスケッチから生成された画像は、フォトリアリスティックではなく、カラードローイングに近い。 0.58
This is because edges and freehand sketches are very different: freehand sketches are human abstractions of an object, usually with more deformations. これは、エッジとフリーハンドのスケッチが全く異なるためである:フリーハンドのスケッチはオブジェクトの人間の抽象であり、通常より多くの変形を伴う。 0.61
The connections between the target photos and the input sketch are looser than with edges. 対象の写真と入力スケッチの接続はエッジよりもゆるやかです。 0.52
Due to this domain gap, sketch-to-photo generators trained on the edge inputs usually cannot learn shape rectification, thus fail to generalize to freehand sketches. この領域ギャップのため、エッジ入力でトレーニングされたスケッチから写真へのジェネレータは通常、形状整流を学習できないため、フリーハンドのスケッチに一般化できない。 0.56
Synthesized sketches. Another intuitive solution for opendomain generation is to enrich the training set of unseen classes M with sketches synthesized by a pre-trained photo-to-sketch generator [46]. 合成スケッチ。 オープンドメイン生成のためのもう1つの直感的な解決策は、事前訓練されたフォト・ツー・スケッチ生成器 [46] によって合成されたスケッチを用いて、目に見えないクラスmのトレーニングセットを強化することである。 0.50
Figure 3 shows the result from a model trained with pre-extracted sketches on Scribble [19] and QMUL-Sketch dataset [75, 64, 46], where 図3は、scribble [19]とqmul-sketchデータセット [75, 64, 46]で予め抽出したスケッチでトレーニングされたモデルの結果を示しています。 0.73
Figure 3: Results of photo synthesis from fake sketch inputs and real sketch inputs on Scribble [19] and QMUL-Sketch datasets [75, 64, 46]. 図3:scribble [19] と qmul-sketch データセット [75, 64, 46] 上の偽のスケッチ入力と実際のスケッチ入力からの写真合成の結果。 0.79
The outputs are generated by a model trained with synthesized sketches, and the setting remains the same as in [46], where the fake sketches are generated using a sketch extractor trained on the in-domain data. 出力は、合成スケッチで訓練されたモデルによって生成され、[46]では、ドメイン内のデータで訓練されたスケッチ抽出器を使用して偽スケッチが生成される。 0.72
The left two columns show the fake sketch inputs and their outputs, and the right two columns are the real freehand sketch inputs and the corresponding unsatisfactory outputs. 左2列は偽のスケッチ入力とその出力を示し、右2列は実のフリーハンドスケッチ入力とそれに対応する不満足な出力である。 0.77
Comparing the outputs, we can see this training strategy makes the model fail to generalize on real sketches. 出力を比較すると、このトレーニング戦略が実際のスケッチを一般化するのに失敗することがわかる。 0.66
the photo-to-sketch extractor is trained with the in-domain classes of the training set. photo-to-sketch抽出器は、トレーニングセットのドメインクラスでトレーニングされる。 0.69
From the left two columns in Figure 3, we can see that the model is able to generate photo-realistic outputs from synthesized sketches. 図3の左の2つの列から、このモデルが合成されたスケッチからフォトリアリスティックな出力を生成できることが分かります。 0.71
However, it fails on real freehand sketches, as shown in the right two columns: even it can generate the correct color and texture conditioned by the input label, it cannot understand the basic structure of real sketches (e g distinguish the object from the background). しかし、右の2つの列に示すように、実際のフリーハンドスケッチでは失敗する:入力ラベルによって正しい色とテクスチャを生成できるとしても、実際のスケッチの基本構造を理解することはできない(例えば、オブジェクトと背景を区別する)。 0.75
The reason is, even visually similar, the real and fake sketches are still distinguishable for the model. 理由は、たとえ視覚的に似ていても、本物と偽のスケッチはモデルに区別できるからだ。 0.67
This strategy cannot guarantee that the model can generalize from the synthesized data to the real freehand sketches, especially for the multi-class generation. この戦略は、モデルが合成されたデータから実際のフリーハンドスケッチ、特にマルチクラス生成への一般化が可能であることを保証できない。 0.69
Thus, simply using the synthesized sketch to replace the missing freehand sketches cannot ensure photo-realistic generation. したがって、合成されたスケッチを使って不足しているフリーハンドスケッチを置き換えるだけでは、写真リアリスティックな生成が保証できない。
訳抜け防止モード: このように 合成スケッチを単に使うだけで 失われたフリーハンドのスケッチを 写真 - リアルな世代を保証できない。
0.57
3.2. Our Method 3.2. 我々の方法 0.75
To solve this problem, we propose to learn the photo-tosketch and sketch-to-photo translation jointly and narrow the domain gap between the synthesized and real sketches. そこで本研究では,合成されたスケッチと実際のスケッチの領域ギャップを狭めるために,フォト・スケッチとスケッチ・ツー・フォト翻訳を共同で学習することを提案する。
訳抜け防止モード: この問題を解決するために tosketchとsketch-to-photo translationを共同で学ぶことを提案する。 合成されたスケッチと実際のスケッチの間の領域ギャップを狭めます。
0.58
3.2.1 Framework 3.2.1 フレームワーク 0.46
As shown in Figure 4, our framework mainly consists of the following parts: two generators: a photo-to-sketch generator GA, and a multi-class sketch-to-photo generator GB that takes sketch s and class label ηs as input; two discriminators DA and DB that encourage the generators to syn- 図4に示すように、2つのジェネレータ: photo-to-sketch generator ga と、sketch s と class label ηs を入力とする multi-class sketch-to-photo generator gb である。
訳抜け防止モード: 図4に示すように、私たちのフレームワークは主に以下の部分で構成されています。 マルチクラスのスケッチ - to - フォトジェネレータ GB で スケッチ s とクラスラベル η を入力として ; ジェネレータの同期を促進する2つの識別器DAとDB
0.77
3 3 0.85
英語(論文から抽出)日本語訳スコア
Figure 4: AODA framework overview. 図4: AODAフレームワークの概要。 0.79
It has two generators GA : photo → sketch and GB : sketch → photo conditioned on the input label, and two discriminators DA and DB for the sketch and photo domains, respectively. 入力ラベルに条件付されている2つのジェネレータGA : photo → sketchとGB : sketch → photo と、スケッチとフォトドメイン用の2つの識別器DAとDBとを備える。 0.81
In addition, we use a photo classifier R to encourage GB to generate indistinguishable photos from the real ones of the same class. さらに、写真分類器Rを用いてGBを奨励し、同一クラスの実物から識別不能な写真を生成する。 0.69
thesize outputs indistinguishable from the sketch domain S and photo domain P , respectively; and a classifier R that predicts class labels for both real photos p and fake photos GB(s, ηs) to ensure that the output is truly conditioned on the input label ηs. スケッチ領域Sと写真領域Pとの区別不能な出力と、実写真pと偽写真GB(s,ηs)の両方のクラスラベルを予測して、入力ラベルηに出力が真に条件付けされていることを保証する分類器Rとを備える。 0.72
Our AODA framework is trained with the unpaired sketch and photo data. 私たちのAODAフレームワークは、未完成のスケッチと写真データでトレーニングされています。 0.53
During the training process, GB extracts the sketch GA(p) from the given photo p. Then, the synthesized sketch GA(p) and the real sketch s are sent to GB along with their labels ηp and ηs, and turned into the reconstructed photo GB(GA(p), ηp) and the synthesized photo GB(s, ηs), respectively. トレーニング中、gbは所定の写真pからスケッチga(p)を抽出し、合成されたスケッチga(p)と実際のスケッチsとをラベルηp、ηsとともにgbに送信し、それぞれ再構成された写真gb(ga(p、ηp)と合成された写真gb(s、ηs)に変換する。
訳抜け防止モード: トレーニングプロセス中、GBは与えられた写真pからスケッチGA(p)を抽出する。 合成スケッチ GA(p ) と実スケッチ s は、そのラベル ηp と ηs と共に GB に送られる。 そして、再構成されたフォトGB(GA(p ), ηp )となる。 そして合成された写真GB(s, ηs ) をそれぞれ生成した。
0.73
Note that we only send the sketch with its true label to ensure that GB learns the correct shape rectification from sketch to image domain for each class. 注意すべき点は、スケッチを真のラベルで送信するだけで、GBがスケッチから各クラスのイメージドメインへの正しい形状の修正を確実に学べることである。 0.65
The reconstructed photo is supposed to look similar to the original photo, which is imposed by a pixel-wise consistency loss. 再構成された写真は、ピクセル単位での一貫性の損失によって課されるオリジナルの写真に似ています。 0.71
We do not add such a consistency constraint onto the sketch domain since we wish the synthesized sketches to be diverse. 合成されたスケッチが多様であることを望んでおり、このような一貫性の制約をスケッチドメインに追加していません。 0.55
The generated photo is finally sent to the discriminator DB to ensure it is photo-realistic, and the classifier R to ensure it has the same perceptual features as the target class. 生成した写真は、最終的に判別器DBに送られ、写真リアリスティックであることを保証し、分類器Rは、ターゲットクラスと同じ知覚的特徴を有することを保証する。 0.64
In summary, the generator loss includes four parts: the adversarial loss of photo-to-sketch generation LGA, the adversarial loss of sketch-to-photo translation LGB , the pixelwise consistency of photo reconstruction Lpix, and the classification loss for the synthesized photo Lη: 要約すると、ジェネレータ損失は、フォト・ツー・スケッチ生成LGAの対角損失、スケッチ・ツー・フォト翻訳LGBの対角損失、写真再構成Lpixの画素順整合、合成された写真Lηの分類損失の4つを含む。
訳抜け防止モード: 総じて、ジェネレータの損失には4つの部分が含まれる:photo -to - sketch generation lga, スケッチの敵対的損失 - to - photo translation lgb フォトリコンストラクションlpixの画素単位での一貫性と合成光lηの分類損失
0.87
LGAN = λALGA (GA, DA, p)+λBLGB (GB, DB, s, ηs) + λpixLpix(GA, GB, p, ηp) + ληLη(R, GB, s, ηs). LGAN = λALGA (GA, DA, p)+λBLGB (GB, DB, s, ηs) + λpixLpix(GA, GB, p, ηp) + ληLη(R, GB, s, ηs)。 0.92
(1) Please see our supplementary materials for more details. 1)詳細は補足資料を参照してください。 0.56
All parts of our framework are trained jointly from scratch. フレームワークのすべての部分は、スクラッチから共同でトレーニングされています。 0.50
However, if we directly train the multi-class generator with the loss defined in Equation 4, the training objectives for open-domain classes M become the following form due to the missing sketches s: LM GAN = λALGA(GA, DA, p) + λpixLpix(GA, GB, p, ηp), (2) where ηp ∈ M. As a result, the sketch-to-photo generator GB is solely supervised by the pixel-wise consistency. lm gan = λalga(ga, da, p) + λpixlpix(ga, gb, p, ηp), (2) ここで ηp ∈ m. 結果として、sketch-to-photo generator gb はピクセル間の一貫性によってのみ監督される。
訳抜け防止モード: しかし、Equation 4で定義された損失でマルチクラスジェネレータを直接トレーニングすれば、 開域クラス M の訓練目的は、不足したスケッチ s: LM GAN = λALGA(GA,) によって以下の形式になる。 DA, p ) + λpixLpix(GA, GB, p, ηp ) 結果として、スケッチ - to - フォトジェネレータ GB は、ピクセル - 賢明な一貫性によってのみ監督される。
0.71
Since the commonly used L1 and L2 loss lead to the median and mean of pixels, respectively, this bias will make GB generate blurry photos for the open-domain classes. 一般的に使用されるL1とL2の損失はそれぞれピクセルの中央値と平均値をもたらすため、GBはオープンドメインクラスのぼやけた写真を生成する。 0.78
To solve this problem, we propose the random-mixed sampling strategy to minimize the domain gap between real and fake sketch inputs for the generator and improve its output quality with the open-domain classes. そこで本研究では,実写と偽写との領域ギャップを最小化し,オープンドメインクラスによる出力品質の向上を図るため,ランダム混合サンプリング手法を提案する。 0.76
3.2.2 Random-mixed strategy 3.2.2 ランダム混合戦略 0.50
This strategy aims to “fool” the generator into treating fake sketches as real ones. この戦略は、ジェネレータを“食”して、偽のスケッチを本物のスケッチとして扱うことだ。 0.49
Algorithm 1 describes the detailed steps for the random-mixed sampling and modified optimization: P ool denotes the buffer that stores the minibatch of sketch-label pairs. アルゴリズム1はランダムに混合されたサンプリングと修正された最適化のための詳細なステップを記述する: p oolはスケッチラベルペアのミニバッチを格納するバッファを表す。
訳抜け防止モード: アルゴリズム1はランダム混合サンプリングと修正最適化の詳細なステップを記述する P ool は、スケッチとラベルのペアのミニバッチを格納するバッファを表す。
0.73
Querying the pool returns either the current minibatch or a previously stored one (and inserts the current minibatch in the pool) with a certain likelihood. プールを問い合わせると、ある確率で現在のミニバッチまたは以前に格納されたどちらかを返す(そして、現在のミニバッチをプールに挿入する)。 0.63
U denotes uniform sampling in the given range, and t denotes the threshold that is set according to the ratio of opendomain classes and in-domain classes to match the photo data distribution. Uは与えられた範囲における一様サンプリングを表し、tは写真データ分布に一致するオープンドメインクラスとドメイン内のクラスの割合に応じて設定される閾値を表す。 0.82
One key operation of this strategy is to construct pseudo sketches for GB by randomly mix the synthesized sketches この戦略の重要な操作の1つは、合成スケッチをランダムに混合してGB用の擬似スケッチを構築することである。
訳抜け防止モード: この戦略の重要な操作は 合成スケッチをランダムに混合してGB用の擬似スケッチを構築する
0.80
4 Photo 𝑝Reconstructed photo 𝐺!𝐺"𝑝,𝜂#Generated sketch G"(𝑝)Class𝜂#Sketch discriminatorPhoto discriminator𝐷"𝐷!…Real sketch 𝑠…Real photo𝑝real/fake :: real/fakePhoto classifier𝑅: class labelGenerator 𝐺"Generator 𝐺!………𝐺!Generated photo G! 4 Photo pReconstructed photo G!G"p,η#Generated sketch G"(p)Classη#Sketch discriminatorD"D!...Real sketch s...Real photopreal/fake :: real/fakePhoto classifierR: class labelGenerator G"Generator G"............G!Generated photo G! 0.91
(𝑠,𝜂$)Class𝜂$Pixelwise consistency (s,η$)Classη$Pixelwise consistency 0.93
英語(論文から抽出)日本語訳スコア
Algorithm 1: Minibatch Random-Mixed Sampling and Updating Input: In training set D, each minibatch contains photo set p, freehand sketch set s, the class label of photo ηp, and the class label of sketch ηs; for number of training iterations do アルゴリズム1: minibatch random-mixed sampling and updates input: トレーニングセットdでは、各ミニバッチはphoto set p、freehand sketch set s、class label of photo ηp、class label of sketch ηsを含む。 0.71
sf ake ← GA(p); sc ← s; ηc ← ηs; if t < u ∼ U (0, 1) then sf ake , ga(p); sc , s; ηc , ηs; if t < u , u (0, 1) なら、 0.63
sc, ηc ← pool.query(sf ake, ηp); sc, ηc ] pool.query(sf ake, ηp); 0.87
end prec ← GB(sf ake, ηp); pf ake ← GB(s, ηs) Calculate LGAN with (p, sc, prec, ηc) and update GA and GB; Calculate LDA (s, sf ake) and LDA(p, pf ake), update DA and DB; Calculate LR(p, pf ake, ηp, ηs) and update the classifier. end prec > GB(sf ake, ηp); pf ake > GB(s, ηs) LGAN を (p, sc, prec, ηc) で計算し GA と GB を更新; LDA (s, sf ake) と LDA (p, pf ake) を計算; DA と DB を更新; LR(p, pf ake, ηp, ηp) を計算し、分類器を更新する。 0.89
end with real ones in a batch-wise manner. 終わり バッチ的に実際のものを使って。 0.64
In this step, the pseudo sketches are treated as the real ones by the generator. このステップでは、擬似スケッチはジェネレータによって実際のスケッチとして扱われる。 0.60
Thus, the open-domain classes’ LM 従って、オープンドメインクラスのLMは 0.72
GAN becomes: GANは次のようになる。 0.34
LM GAN = λALGA (GA, DA, p)+λBLGB (GB, DB, sf ake, ηp) + λpixLpix(GA, GB, p, ηp) + ληLη(R, GB, sf ake, ηp), LM GAN = λALGA (GA, DA, p)+λBLGB (GB, DB, sf ake, ηp) + λpixLpix(GA, GB, p, ηp) + ληLη(R, GB, sf ake, ηp) 0.99
(3) where ηp ∈ M. Another key of the strategy is on optimization: the sampling strategy is only for GB. 3) ここで ηp ∈ m. 戦略のもう1つの鍵は最適化である: サンプリング戦略は gb のみである。 0.82
The classifier and discriminators are still updated with real/fake data to guarantee their discriminative powers. 分類器と判別器は、識別能力を保証するために、まだリアル/フェイクデータで更新されている。
訳抜け防止モード: 分類器と識別器は、実際の/偽のデータで更新される 差別力を保証するためです
0.60
The random mixing operation is blind to in-domain and open-domain classes. ランダムな混合操作は、ドメイン内およびオープンドメインクラスに盲目である。 0.62
As a result, the training sketches include both real and pseudo sketches from all categories. その結果、トレーニングスケッチには、すべてのカテゴリのリアルスケッチと擬似スケッチの両方が含まれている。 0.60
By including pseudo sketches from both the in-domain and open-domain classes, it would further enforce the sketch-toimage generator to ignore the domain gap in the inputs and synthesize realistic photos from both real and fake sketches. in-domainクラスとopen-domainクラスの両方からの疑似スケッチを含めることで、sketch-toimageジェネレータは入力のドメインギャップを無視し、リアルなスケッチと偽のスケッチの両方から現実的な写真を合成する。 0.67
Note that since GA’s parameters are consistently updated during training, the pseudo sketches also change for each batch. GAのパラメータはトレーニング中に一貫して更新されるため、疑似スケッチもバッチ毎に変更される。 0.69
Moreover, the pseudo sketch-label pairs are acquired from a history of generated sketches and their labels rather than the latest produced ones by GA. We maintain a buffer that stores the 50 previously added minibatch of sketchlabel pairs [63, 79]. さらに、GAによる最新のスケッチではなく、生成したスケッチとそのラベルの履歴から擬似スケッチラベルペアを取得し、予め追加された50個のスケッチラベルペア [63, 79] を格納するバッファを保持する。 0.71
Mixing real sketches with fake ones can be regarded as an online data augmentation technique for training GB. 本物のスケッチと偽のスケッチを組み合わせることは、gbをトレーニングするためのオンラインデータ拡張技術と見なすことができる。
訳抜け防止モード: 本物のスケッチと偽のスケッチを混ぜる GBをトレーニングするためのオンラインデータ拡張テクニックと見なすことができる。
0.64
Compared with augmentation using edges, GA can learn the distortions from real freehand sketches by approaching エッジを用いた拡張と比較すると,GAは近づくことで実フリーハンドスケッチから歪みを学習できる 0.73
5 the real data distribution [20, 33, 77], and enable GB to learn shape rectification on the fly. 5 実際のデータ分布 [20, 33, 77] とGBがハエの形状補正を学習できるようにする。 0.79
Benefiting from the joint training mechanism, as the training progresses, the sketches generated by GA change epoch by epoch. 共同トレーニングの仕組みから、トレーニングが進むにつれて、GAが生み出したスケッチはエポック的に変化します。 0.63
The loose consistency constraint on sketch generation further increases the diverseness of the sketch data in the open-domain. スケッチ生成に対するゆるい一貫性の制約は、オープンドメインにおけるスケッチデータの多様性をさらに高める。 0.65
Compared with using pre-extracted sketches, the open-domain buffer maintains a broad spectrum of sketches: from the very coarse ones generated in early epochs to the more human-like sketches in later epochs as GA converges. 事前抽出したスケッチと比較すると、オープンドメインバッファは、初期のエポックで生成される非常に粗いスケッチから、GAが収束するにつれて後期エポックでより人間的なスケッチまで、幅広いスケッチを維持できる。 0.50
4. Experiments We firstly introduce the three used datasets, evaluation metrics, implementation details and the objective functions in Section 4.1. 4. 実験 まず,使用済みデータセット,評価指標,実装の詳細,目的関数を4.1節で紹介する。 0.81
Then we present both qualitative and quantitative comparisons with three other methods in Section 4.2.1. 次に、第4.2.1節の他の3つの方法と定性的および定量的に比較する。 0.58
In addition, we validate the robustness of our method to modified inputs in Section 4.2.2. さらに、第4.2.2節の修正入力に対するロバスト性を検証する。 0.64
Besides, we show the results of photo-to-sketch synthesis in Section 4.3. さらに,第4章3節で写真とスケッチの合成結果を示す。 0.65
Finally, we demonstrate the effectiveness of the proposed training strategy with empirical results and discuss the influence of missing classes in Section 4.4. 最後に,本提案手法の有効性を実証的に示し,第4節4で欠落クラスの影響について考察する。 0.67
4.1. Experiment Setup 4.1.1 Datasets 4.1. 実験セットアップ 4.1.1データセット 0.63
We train our model on three datasets: Scribble [19] (10 classes), and SketchyCOCO [18] (14 classes of objects). scribble [19] (10クラス)とsketchycoco [18] (14クラスのオブジェクト)の3つのデータセットでモデルをトレーニングします。 0.77
During the training stage, the sketches of certain classes are completely removed to meet the open-domain settings. トレーニング段階では、特定のクラスのスケッチは完全に削除され、オープンドメインの設定を満たす。 0.66
Scribble This dataset contains ten classes of objects, including white-background photos and simple outline sketches. Scribble このデータセットには、白背景の写真や単純なアウトラインスケッチを含む10種類のオブジェクトが含まれている。 0.59
Six out of ten object classes have similar round outlines, which imposes more stringent requirements on the network: whether it can generate the correct structure and texture conditioned on the input class label. 10のオブジェクトクラスのうち6つは、同様のラウンドアウトラインを持ち、入力クラスラベルで正しい構造とテクスチャを生成できるかどうかという、ネットワーク上でより厳しい要件を課している。 0.76
In our opendomain setting, we only have the sketches of four classes for training: pineapple (151 images), cookie (147 images), orange (146 images), and watermelon (146 images). オープンドメインの設定では、トレーニング用のクラスはpineapple(151イメージ)、cookie(147イメージ)、orange(146イメージ)、watermelon(146イメージ)の4つだけです。 0.59
We set the input image size to 256 × 256 and train all the compared networks for 200 epochs. 入力画像サイズを256×256に設定し、比較したネットワークを200エポックでトレーニングした。 0.71
We apply the Adam [32] optimizer with batch size= 1, and the learning rate is set to 2e − 4 for the first 100 epochs, and it decreases linearly to zero in the second 100 epochs. 我々はAdam[32]オプティマイザをバッチサイズ=1で適用し、学習速度は最初の100エポックで2e − 4に設定し、2番目の100エポックでは0に線形に減少する。 0.78
SketchyCOCO This dataset includes 14 object classes, where the sketches are collected from the Sketchy dataset [60], TU-Berlin dataset [16], and Quick! SketchyCOCO このデータセットには14のオブジェクトクラスが含まれており、スケッチはSketchyデータセット [60]、TU-Berlinデータセット [16]、Quick! 0.83
Draw dataset [21]. 描画データセット[21]。 0.73
The 14,081 photos for each object class are segmented from the natural images of COCO Stuff [4] under unconstrained conditions, thereby making it more difficult for existing methods to map the freehand sketches to the photo domain. 各オブジェクトクラスの14,081枚の写真は、制約のない条件下でCOCO Stuff[4]の自然な画像から区切られているため、既存の手書きスケッチを写真領域にマッピングする手法がより困難になる。 0.78
In our open-domain setting, we remove the sketches of two classes during training: sheep and giraffe. オープンドメイン設定では、トレーニング中の2つのクラスのスケッチ(羊とキリン)を取り除きます。 0.57
英語(論文から抽出)日本語訳スコア
We use EdgeGAN [18] weights released by the author. 著者がリリースしたEdgeGAN [18]ウェイトを使用します。 0.74
All the other networks are trained for 100 epochs. 他のネットワークはすべて100エポックのトレーニングを受けています。 0.66
Then we calculate the classification loss of both real and そして、実と実の両方の分類損失を計算する。 0.66
synthesized photos and optimize the classifier: 合成写真と分類器の最適化 0.80
4.1.2 Evaluation Metrics 4.1.2 評価指標 0.53
We quantitatively evaluate the generation results with three different metrics: 1) Fr´echet Inception Distance (FID) [23] that measures the feature similarity between generated and real image sets. 1) Fr ́echet Inception Distance (FID) [23] は生成した画像と実画像との間の特徴的類似度を測定する。
訳抜け防止モード: 1 ) fr ′echetインセプション距離 (fid ) [23 ] という3つの指標を用いて, 生成結果の定量的評価を行った。 生成画像と実画像の類似度を測定する。
0.63
A Low FID score means the generated images are less different from the real ones and thus have high fidelity; 2) Classification Accuracy (Acc) [2] of generated images with a pre-trained classifier in the same manner as [19, 18]. 低fidスコアとは、生成した画像が実際の画像とあまり違いがなく、高い忠実度を持つことを意味する; 2) 予め訓練された分類器が[19,18]と同じ方法で生成した画像の分類精度(acc)[2]。
訳抜け防止モード: 低FIDスコアは、生成された画像が実際の画像とあまり異なることを意味する 2 ) 事前訓練された分類器を持つ生成された画像の[19, 18]と同じ方法で分類精度(Acc ) [2 ]。
0.83
Higher accuracy indicates better image realism; 3) User Preference Study (Human): we show the participants a given sketch and the class label, and ask them to pick one photo with the best quality and realism from generated results. 3) ユーザ嗜好学習(Human): 参加者に与えられたスケッチとクラスラベルを示し、生成した結果から最高の品質とリアリズムで1枚の写真を選ぶように依頼する。
訳抜け防止モード: 高い精度は、より良い画像リアリズムを示す; 3 )ユーザ嗜好研究(人間) infoq: 参加者に与えられたスケッチとクラスラベルを示します。 生成した結果から、最高のクオリティとリアリズムの写真を1枚選んでもらいます。
0.70
We randomly sample 31 groups of images. 31の画像をランダムにサンプリングした。 0.66
For each evaluation, we shuffle the options and show them to 25 users. 各評価では、オプションをシャッフルして、25ユーザに表示します。 0.72
We collect 775 answers in total. 合計775の回答を集めた。 0.75
4.1.3 Implementation Details 4.1.3 実装の詳細 0.47
The loss for training the generator is composed of four parts: the adversarial loss of photo-to-sketch generation LGA, the adversarial loss of sketch-to-photo translation LGB , the pixel-wise consistency of photo reconstruction Lpix, and the classification loss for synthesized photo Lη: LGAN = λALGA (GA, DA, p)+λBLGB (GB, DB, s, ηs) + λpixLpix(GA, GB, p, ηp) + ληLη(R, GB, s, ηs), (4) where LGA (GA, DA, p) = −Ep∼Pdata(p)[logDA(GA(p))], (5) LGB (GB, DB, s, ηs) = −Es∼Pdata(s)[logDB (GB(s, ηs))], (6) Lpix(GA, GB, p, ηp) = Ep∼Pdata(p)[||GB(GA(p), ηp)−p||1], (7) The loss for training the generator is composed of four parts: the adversarial loss of photo-to-sketch generation LGA, the adversarial loss of sketch-to-photo translation LGB , the pixel-wise consistency of photo reconstruction Lpix, and the classification loss for synthesized photo Lη: LGAN = λALGA (GA, DA, p)+λBLGB (GB, DB, s, ηs) + λpixLpix(GA, GB, p, ηp) + ληLη(R, GB, s, ηs), (4) where LGA (GA, DA, p) = −Ep∼Pdata(p)[logDA(GA(p))], (5) LGB (GB, DB, s, ηs) = −Es∼Pdata(s)[logDB (GB(s, ηs))], (6) Lpix(GA, GB, p, ηp) = Ep∼Pdata(p)[||GB(GA(p), ηp)−p||1], (7) 0.98
Lη(R, GB, s, ηs) = Lη(R, GB, s, ηs) = 0.99
E[log P (R(GB(s, ηs)) = ηs|GB(s, ηs))]. E[log P (R(GB(s, ηs)) = ηs|GB(s, ηs))] 0.88
(8) Note that only the classification loss of the generated (8) 生成物の分類損失のみに注意。 0.76
photo GB(s, ηs) is used to optimize the generators. photo GB(s, ηs) はジェネレータの最適化に使用される。 0.74
Then we update the discriminators DA and DB with the 次に、識別器 DA と DB を更新します。 0.70
following loss functions, respectively: 損失関数はそれぞれ次のとおりである。 0.60
LDA (GA, DA, p, s) = −Es∼Pdata(s)[log DA(s)] LDA (GA, DA, p, s) = −Es\Pdata(s)[log DA(s)] 0.87
+ Ep∼Pdata(p)[log DA(GA(p))], + Ep\Pdata(p)[log DA(GA(p))] 0.71
(9) LDB (GB, DB, s, p, ηs) = −Ep∼Pdata(p)[log DB(p)] (9) LDB (GB, DB, s, p, ηs) = −Ep\Pdata(p)[log DB(p)] 0.88
+ Es∼Pdata(s)[log DB(GB(s, ηs))]. + EséPdata(s)[log DB(GB(s, ηs))] 0.60
(10) 6 LR(R, GB, s, p, ηs, ηp) = E[log P (R(p) = ηp|p)] + E[log P (R(GB(s, ηs)) = ηs|GB(s, ηs))]. (10) 6 LR(R, GB, s, ηs, ηp) = E[log P (R(p) = ηp|p)] + E[log P (R(GB(s, ηs)) = ηs|GB(s, ηs))] 0.87
(11) Real images and their labels enable the classifier to learn the decision boundary for each class, and the synthesized images can force the classifier to treat the fake images as the real ones and provide discriminant outputs regardless of their domain gap. (11) 実画像とそのラベルは、分類者が各クラスの決定境界を学習できるようにし、合成された画像は、偽画像を実画像として扱うように強制し、ドメインギャップに関係なく識別出力を提供する。 0.79
For this reason, the classifier needs to be trained jointly with the other parts of our framework. そのため、分類器はフレームワークの他の部分と共同で訓練する必要があります。 0.59
We adopt the binary cross-entropy loss for discriminators and focal loss [41] for classification. 判別器には二項クロスエントロピー損失,分類には焦点損失 [41] を採用する。 0.70
The pixel-wise loss for photo reconstruction is measured by L1-distance. 画素単位での光再構成損失はl1距離で測定される。 0.64
Our model is implemented in PyTorch [57, 58]. 私たちのモデルはPyTorch [57, 58]で実装されています。 0.62
We train our networks with the standard Adam [32] using 1 NVIDIA V100 GPU. 我々は1つのNVIDIA V100 GPUを使用して、標準のAdam[32]でネットワークをトレーニングする。 0.69
The batch size and initial learning rate are set to 1 and 2e − 4 for all datasets. バッチサイズと初期学習率は、すべてのデータセットに対して1と2e − 4に設定される。 0.74
The epoch numbers are 200, 400, and 100 for the Scribble [19], QMUL-Sketch [75, 64, 46], and SketchyCOCO [18], respectively. Scribble [19]、QMUL-Sketch [75, 64, 46]、SketchyCOCO [18]のエポック数は200, 400, 100である。
訳抜け防止モード: Scribble [19 ] のエポック数は 200, 400, 100 である。 QMUL - Sketch [75, 64, 46 ] およびSketchyCOCO [18 ] であった。
0.69
The learning rates drop by multiplying 0.5 in the second half of epochs. 学習率は、エポック後半の0.5倍で低下する。 0.64
For the compared method EdgeGAN [18], we use the official implementation in https://github.com/s ysuimsl/EdgeGAN for data preprocessing and training. 比較したEdgeGAN [18]では、データ前処理とトレーニングにhttps://github.com/s ysuimsl/EdgeGANで公式実装を使用します。 0.67
It is trained for 100 epochs on Scribble and QMUL datasets using one NVIDIA GTX 2080 GPU. NVIDIA GTX 2080 GPUを使用して、ScribbleとQMULデータセット上で100エポックのトレーニングを行う。 0.75
The batch size is set to 1 due to memory limitation. バッチサイズはメモリ制限により1に設定される。 0.79
4.2. Sketch-to-Photo Synthesis 4.2.1 Comparison to Other Methods 4.2. スケッチから写真への合成 4.2.1 他の方法との比較 0.59
To better illustrate the effectiveness of our proposed solution, here we adopt CycleGAN [79] as the baseline in building our network and include the original CycleGAN in the following comparison. 提案手法の有効性をよりよく説明するために,ネットワーク構築のベースラインとしてCycleGAN[79]を採用し,以下の比較にオリジナルのCycleGANを含める。 0.73
To make it able to accept sketch class labels, we modified the sketch-to-photo translator to be a conditional generator. スケッチクラスのラベルを受け付けるために、sketch-to-photo翻訳器を条件付き生成器として修正した。 0.58
Besides, we also compare a recent work EdgeGAN [18] on each dataset. さらに、データセット毎の最近のEdgeGAN [18]も比較します。 0.67
We mark the open-domain sketch with a (cid:70) for better visualization. より良い視覚化のために、オープンドメインのスケッチを (cid:70) でマークします。 0.56
Scribble. Figure 5 shows the qualitative results of (a) CycleGAN, (b) conditional CycleGAN, (c) conditional CycleGAN with classification loss, (d) EdgeGAN and our method, where the bottom three rows are open-domain. スクリブル。 図5は (a) CycleGAN, (b) Conditional CycleGAN, (c) Conditional CycleGAN with classification loss, (d) EdgeGAN and our method, where the bottom three rows are open- domain。 0.62
The original CycleGAN exhibits mode collapse and synthesizes identical textures for all categories, probably due to the fact that the sketches in the Scribble dataset barely imply their class labels. オリジナルのcycleganはモードの崩壊を示し、全てのカテゴリで同一のテクスチャを合成する。
訳抜け防止モード: オリジナルのCycleGANはモード崩壊を示し、すべてのカテゴリで同じテクスチャを合成する。 おそらくそれは Scribbleデータセットのスケッチは、クラスラベルをほとんど意味しません。
0.75
This problem is alleviated in (b). この問題は (b) で緩和される。 0.75
Still, it fails to synthesize natural photos for some categories due to the gap between open-domain and in-domain data. それでも、オープンドメインデータとドメイン内のデータの間にギャップがあるため、いくつかのカテゴリで自然写真を合成できない。 0.55
Such a domain gap is even worse in (c), where the in-domain result is with realistic but wrong texture, and the open-domain results are texture-less. このようなドメイン間ギャップは(c)ではさらに悪く、ドメイン内の結果は現実的だが間違ったテクスチャで、オープンドメインの結果はテクスチャレスである。 0.69
This might be because that classifier implicitly increases the domain gap while maximizing the これは、その分類器が最大化しながら暗黙的にドメイン間隙を増加させるためかもしれない。 0.51
英語(論文から抽出)日本語訳スコア
Input (a) (b) 入力 (a) (b) 0.81
(c) (d) Ours (c) (d) 我々の 0.76
Figure 5: Results on Scribble dataset [19]. 図5: scribbleデータセット[19]の結果。 0.84
We mark the open-domain inputs with (cid:70). オープンドメインの入力を (cid:70) でマークします。 0.63
The following columns are outputs of (a) CycleGAN [79], (b) conditional CycleGAN, (c) classifier+(b), (d) EdgeGAN [18], and ours. 次の列は (a) CycleGAN [79], (b) Conditional CycleGAN, (c) classifier+(b), (d) EdgeGAN [18] の出力である。
訳抜け防止モード: 次の列は (a ) CycleGAN [ 79 ] の出力である。 (b)条件付きCycleGAN,(c)分類子+(b) (d) EdgeGAN [18 ] および我々の。
0.82
class discrepancy. Thus, we do not include this model for comparison on the other two datasets. 階級格差。 したがって、他の2つのデータセットの比較のためにこのモデルは含まない。 0.66
Compared with (d), our results are more consistent with the input sketch shape, demonstrating that our model is better at understanding the composition in sketches and learning more faithful shape rectification in sketch-to-photo domain mapping. d)と比較すると,入力されたスケッチ形状と一致し,モデルがスケッチの構成を理解するのに優れ,スケッチから写真へのドメインマッピングにおいてより忠実な形状修正を学ぶことが示される。 0.71
SketchyCOCO The qualitative results are shown in Figure 6, where the top two rows are of in-domain categories, and the bottom two are open-domain. sketchycoco 質的な結果が図6に示されています。上位2行はドメイン内カテゴリで、下位2行はオープンドメインです。 0.63
The photos generated by CycleGAN suffer from mode collapse. CycleGANが生成した写真はモード崩壊に悩まされている。 0.69
As shown in column (b), conditional CycleGAN cannot generate vivid textures for open-domain categories. 列(b)に示すように、条件付きCycleGANはオープンドメインカテゴリの鮮やかなテクスチャを生成できない。 0.69
Compared with EdgeGAN in (c), the poses in our generated photos are more faithful to the input sketches. EdgeGAN in (c)と比較すると、生成した写真のポーズは入力スケッチに忠実である。 0.59
The quantitative results for the three datasets are summarized in Table 1. 3つのデータセットの定量的結果は、表1にまとめられている。 0.65
We can see that our model is preferred by more users than the other compared methods, and achieves the best results in terms of the FID score and classification accuracy on all datasets. 我々のモデルは、他の比較手法よりも多くのユーザーが好んでおり、全てのデータセットのFIDスコアと分類精度の点で最高の結果が得られる。 0.76
These results confirm our observations of the qualitative outputs, as discussed above. これらの結果は、上述した定性的出力の観測を裏付けるものである。 0.69
Besides, we have an interesting observation: compared with the baseline CycleGAN and conditional CycleGAN, our random-mixed strategy improves not only the open-domain results, but also in-domain results. ベースラインの cyclegan と条件付き cyclegan と比較して、我々のランダム混合戦略は、オープンドメインの結果だけでなく、ドメイン内の結果も改善します。 0.58
We find a possible explanation from [65]: the “fake-as-real” operation can effectively alleviate the gradient exploding issue during GAN training and result in a more faithful generated distribution. fake-as-real"操作は、ganトレーニング中の勾配爆発問題を効果的に軽減し、結果としてより忠実な分布を生成することができる。
訳抜け防止モード: GANトレーニング中の勾配爆発問題を効果的に緩和できる「偽----------」操作について [65 ]から説明できる可能性がある。 その結果 より忠実に生成された分布が
0.71
4.2.2 Robustness 4.2.2ロバスト性 0.39
We test our sketch-to-photo generator’s robustness to the inputs and show the visual results in Figure 7: left two columns show partial sketches that are generated by remov- 図7に示すように、スケッチから写真へのジェネレータのロバストさをテストし、視覚的な結果を表示します。
訳抜け防止モード: 私たちはスケッチ-to-フォトジェネレータの入力に対する堅牢性をテストする。 図7に示す 左の2つの列は、削除によって生成される部分的なスケッチを示しています
0.62
Input (a) (b) 入力 (a) (b) 0.81
(c) Ours Figure 6: Results on SketchyCOCO dataset [18] for the compared methods: (a) CycleGAN [79], (b) conditional CycleGAN, (c) EdgeGAN [18], and ours. (c) 我々の 図6:sketchycocoデータセット[18]の比較結果: (a) cyclegan [79], (b) conditional cyclegan, (c) edgegan [18], ours。
訳抜け防止モード: (c) 我々の 図6 : 比較手法におけるSketchyCOCOデータセット [18 ] の結果 : (a) CycleGAN [79 ] b)条件付きサイクルGAN, (c)エッジGAN [18 ] 我々のも
0.75
The open-domain inputs are marked with (cid:70). オープンドメイン入力は (cid:70) でマークされる。 0.63
−− − Original + ++ −− − 原本 + ++ 0.77
Figure 7: Our model works well for the sketches that are modified by removing strokes (left two columns) and adding strokes (right two columns). 図7:私たちのモデルは、ストローク(左2列)を取り除き、ストローク(右2列)を追加することで修正されたスケッチに対してうまく機能します。 0.70
ing some strokes from the original one, and the right two columns are enriched sketches that are generated by adding extra strokes to the original ones. 原文からいくつかのストロークを入力し、右の2つのコラムは、原文に余分なストロークを加えることによって生成される濃厚なスケッチである。 0.56
The original sketch from the SketchyCOCO [18] test set and its output are shown in the middle column. SketchyCOCO [18]テストセットのオリジナルのスケッチとその出力は、中間列に示されています。 0.79
Our model can synthesize realistic airplanes, even when the image composition is changed by adding or removing strokes. 私たちのモデルは、ストロークの追加や削除によって画像構成が変化しても、現実的な飛行機を合成できる。
訳抜け防止モード: 私たちのモデルは 現実の飛行機を合成できます ストロークの追加又は削除により画像組成を変化させる。
0.71
4.3. Photo-to-Sketch Synthesis 4.3. 光-エッチング合成 0.58
As a byproduct, our network can also provide a highquality freehand sketch generator GA for a given photo [54, 74, 30]. 副産物として,任意の写真[54,74,30]に対して高品質なフリーハンドスケッチ生成gaを提供することができる。 0.67
We run our sketch extractor on COCO objects (top two rows) and web images (bottom two rows) and display the results in Figure 8. スケッチ抽出器をCOCOオブジェクト(2行上)とWebイメージ(2行上)上で実行し、その結果を図8に示す。 0.73
Our model can generate different styles of freehand sketches like human drawers beyond the edge map of a photo, even for unseen objects. 私たちのモデルは、写真のエッジマップを超えて、目に見えないオブジェクトでも、人間の引き出しのような、さまざまなフリーハンドスケッチを生成できます。 0.58
Characterized by the joint training, the weights of the photo-to-sketch generator are constantly updated as the training progresses. ジョイントトレーニングの特徴として、トレーニングが進行するにつれて、フォト・ツー・スケッチ生成器の重みが常に更新される。 0.53
As a result, the sketches generated by GA change epoch by epoch. その結果、GAによって生成されたスケッチはエポックによって変化します。 0.51
Figure 9 shows the ex- 図9は前者を示しています。 0.48
7 7 0.85
英語(論文から抽出)日本語訳スコア
Dataset Scribble データセット スクリブル 0.60
SketchyCOCO SketchyCOCO 0.85
Method Metric FID ↓ Acc (%) ↑ Human (%) ↑ FID ↓ Acc (%) ↑ Human (%) ↑ 方法 平均 FID は Acc (%) は Human (%) は FID は Acc (%) は Human (%) である。 0.58
full 279.5 16.0 5.60 201.7 8.4 0.36 full 279.5 16.0 5.60 201.7 8.4 0.36 0.47
CycleGAN [79] in-domain CycleGAN[79]ドメイン 0.74
open-domain 252.7 30.0 1.00 218.7 10.8 0.00 オープンドメイン 252.7 30.0 1.00 218.7 10.8 0.00 0.53
355.9 6.7 8.67 237.2 1.9 0.67 355.9 6.7 8.67 237.2 1.9 0.67 0.43
full 213.6 68.0 19.20 124.3 57.0 5.09 full 213.6 68.0 19.20 124.3 57.0 5.09 0.47
conditional CycleGAN Conditional CycleGAN 0.79
in-domain open-domain ドメイン内 オープンドメイン 0.63
210.9 70.0 17.00 138.7 58.7 5.60 210.9 70.0 17.00 138.7 58.7 5.60 0.43
253.6 66.7 20.67 171.6 52.4 4.67 253.6 66.7 20.67 171.6 52.4 4.67 0.43
full 259.7 100.0 25.20 169.7 75.8 22.55 full 259.7 100.0 25.20 169.7 75.8 22.55 0.47
EdgeGAN [18] in-domain EdgeGAN[18]インドメイン 0.79
open-domain 256.3 100.0 17.00 177.8 68.8 32.00 オープンドメイン 256.3 100.0 17.00 177.8 68.8 32.00 0.53
298.5 100.0 30.67 221 98.3 14.67 298.5 100.0 30.67 221 98.3 14.67 0.48
full 209.5 100.0 48.80 114.8 78.3 72.00 full 209.5 100.0 48.80 114.8 78.3 72.00 0.47
Ours in-domain open-domain 私たちのドメイン内 オープンドメイン 0.56
204.6 100.0 65.00 128.4 70.5 59.20 204.6 100.0 65.00 128.4 70.5 59.20 0.43
252.8 100.0 38.00 139.2 100.0 82.67 252.8 100.0 38.00 139.2 100.0 82.67 0.43
Table 1: Quantitative evaluation and user study on Scribble and SkethyCOCO datasets. 表1:ScribbleとSkethyCOCOデータセットの定量的評価とユーザスタディ。 0.81
We show the full testset results, in-domain results, and open-domain results, respectively. テストセットの完全な結果、ドメイン内の結果、そしてオープンドメインの結果を示します。 0.63
Best results are shown in bold. 最高の結果は大胆に示されます。 0.70
Input Scribble Style QMUL Style Sketchy Style 入力 クリブルスタイルqmulスタイルスケッチスタイル 0.78
Figure 8: Photo-based sketch synthesis results. 図8:写真に基づくスケッチ合成結果。 0.83
Given a photo input, as shown in the first column, our photo-tosketch generator can translate it into sketches in different styles. 最初のコラムに示すように、写真入力が与えられると、写真-スケッチ生成器は異なるスタイルでスケッチに変換できます。 0.68
Our model is able to generate freehand sketches like human drawers on both seen classes and unseen classes. 私たちのモデルは、見たクラスと見えないクラスの両方で、人間の引き出しのようなフリーハンドスケッチを生成できます。 0.61
tracted sketches at different epochs. 異なるエポックで 絵を描きました 0.51
The changing sketches increase the diverseness of the sketch, thus can further augment the data and help the sketch-to-photo generator to better generalize to various freehand sketch inputs. スケッチの変更により、スケッチの多様性が増し、さらにデータを増やし、スケッチから写真へのジェネレータが様々なフリーハンドのスケッチ入力をより一般化するのに役立つ。 0.62
4.4. Ablation Study 4.4.1 Effectiveness of AODA 4.4. アブレーション研究 4.4.1 AODAの有効性 0.64
To illustrate the effect of the proposed open-domain training strategy, we simplify the dataset to two classes, including the in-domain class pineapple and the open-domain class strawberry. 提案するオープンドメイントレーニング戦略の効果を説明するために,in-domain class pineappleとopen-domain class strawberryの2つのクラスにデータセットを単純化する。 0.79
We compare four models: (a) baseline CycleGAN without classifier or strategy; (b) AODA framework without applying any strategy; (c) AODA trained with synthesized open-domain sketches and real in-domain sketches; (d) AODA trained with the random-mixed sam- a)分類子や戦略を持たないベースラインCycleGAN、(b)戦略を適用することなくAODAフレームワーク、(c)オープンドメインスケッチと実際のドメインスケッチでトレーニングされたAODA、(d)ランダム混合サムでトレーニングされたAODAの4つのモデルを比較した。
訳抜け防止モード: a) 分類や戦略のないベースラインCycleGAN, (b) AODAフレームワークを戦略を適用することなく比較する。 (c)AoDA 合成オープンドメインスケッチの訓練 ドメインスケッチ; (d ) AODA はランダムな混合サムで訓練されている。
0.76
8 Input epoch=10 8 入力 epoch=10 0.72
20 30 40 Figure 9: Photo-based sketch synthesis results at different epochs. 20 30 40 図9: 異なるエポックにおける写真ベースのスケッチ合成結果。 0.81
Given a photo input shown in the first column, the synthesized sketches from our photo-to-sketch generator change at different epochs. 第1列に写真入力が示されると、合成されたスケッチは、異なるエポックで変化します。 0.57
pling strategy as described in Algorithm 1. アルゴリズム1に記載されているプリング戦略 0.83
Results are shown in Figure 10, 結果は図10に示します。 0.83
From Figure 10, we can see that the base model in column (a) translates all inputs to the in-domain category; (b) generates texture-less images with correct colors for the open-domain class due to the pixel-wise consistency, as discussed in Equation 2. 図10から、列(a)のベースモデルが全ての入力をドメイン内のカテゴリに変換することが分かる; (b) Equation 2で議論されているように、ピクセルワイドの一貫性のため、オープンドメインクラスに対して正しい色でテクスチャのない画像を生成する。 0.73
For in-domain sketches, it generates photo-realistic outputs with the shape and texture of any category, which indicates that the model associates the class label with real/fake sketches, and thus fails to generalize to open-domain data. ドメイン内スケッチでは、任意のカテゴリの形状とテクスチャでフォトリアリスティックな出力を生成し、モデルがクラスラベルと実/偽のスケッチを関連付けて、オープンドメインデータへの一般化に失敗することを示している。 0.64
For column (c), the model trained with fake open-domain sketches can barely generate realistic textures for strawberries. カラム(c)では、偽のオープンドメインスケッチでトレーニングされたモデルは、イチゴの現実的なテクスチャをほとんど生成できない。 0.56
Besides, it fails to distinguish the object region from the background due to the weak generalization capability, as the extracted sketches actually impair the discriminative power of DA. また、抽出されたスケッチは実際にはdaの判別力を損なうため、弱い一般化能力のため、対象領域と背景を区別できない。 0.53
Column (d) shows that our open-domain sampling and training strategy can alleviate the above issues, and bring superior performance for the multi-class generation. Column (d)は、我々のオープンドメインサンプリングおよびトレーニング戦略が上記の問題を緩和し、マルチクラス世代に優れたパフォーマンスをもたらすことを示す。 0.74
To better understand the effect of the random-mixed strategy, we visualize the embedding of generated photos using the t-SNE [67] on SketchyCOCO [18]. ランダム混合戦略の効果をよりよく理解するために,sketchyco [18] の t-sne [67] を用いた生成画像の埋め込みを可視化する。 0.77
We compare the outputs of the AODA framework trained with/without the strategy in Figure 11. 図11でトレーニングされたAODAフレームワークのアウトプットを比較します。 0.61
We plot both photos pf ake synthe- 両方の写真 pf ake synthe をプロットする 0.78
英語(論文から抽出)日本語訳スコア
nM = FID ↓ Acc (%) ↑ nM = FID > Acc (%) > 0.65
0 167.8 88.0 0 167.8 88.0 0.68
1 182.6 80.0 1 182.6 80.0 0.68
2 202.0 88.0 2 202.0 88.0 0.68
3 207.2 90.0 3 207.2 90.0 0.68
4 204.2 76.0 4 204.2 76.0 0.68
5 183.2 86.0 5 183.2 86.0 0.68
6 209.5 100.0 6 209.5 100.0 0.68
Table 2: Influence of the number of missing classes on the Scribble dataset [19]. 表2: Scribbleデータセット [19] に欠けているクラスの数の影響。 0.76
4.4.2 Influence of Missing Classes 4.4.2 授業不足の影響 0.52
We study the influence of missing sketches by changing the number of open-domain classes nM on the Scribble dataset [19]. scribble データセット [19] におけるオープンドメインクラス nm 数の変更によるスケッチの欠落の影響について検討した。 0.71
nM increases from 0 to 6 by the following order: strawberry, chicken, cupcake, moon, soccer, and basketball. nMは、イチゴ、チキン、カップケーキ、ムーン、サッカー、バスケットボールの順で0から6に増加する。 0.69
As shown in Table 2, when the number of missing classes becomes larger, the FID score increases, which means that overall output quality degrades due to the fewer real sketches in the training set. 表2に示すように、欠落しているクラス数が大きくなるとfidスコアが増加し、トレーニングセットの実際のスケッチが少ないため、全体的な出力品質が低下する。 0.70
But the classification accuracy does not show such a decreasing trend thanks to the classifier’s supervision. しかし、分類の正確さは、分類者の監督によってそのような減少傾向を示さない。 0.71
Figure 12 provides visual examples showing that the quality degradation exists in both indomain and open-domain classes. 図12は、インドメインクラスとオープンドメインクラスの両方に品質劣化が存在することを示す視覚的な例を示します。
訳抜け防止モード: 図12が示す視覚的な例です 品質の低下は、indomainクラスとopenドメインクラスの両方に存在する。
0.60
Even so, the most representative color composition and textures of each category are well-maintained, making the synthesized photos recognizable for human viewers and the trained classifier. それでも、各カテゴリの最も代表的な色組成とテクスチャはよく維持されており、合成された写真は人間の視聴者と訓練された分類器で認識できる。 0.66
5. Conclusion and Future Work 5. 結論と今後の課題 0.79
In this paper, we propose an adversarial open domain adaption framework to synthesize realistic photos from freehand sketches with class labels even if the training sketches are absent for the class. 本稿では,クラスにトレーニングスケッチがなくても,フリーハンドスケッチからクラスラベルを付けたリアルな写真を合成する,敵対的なオープンドメイン適応フレームワークを提案する。 0.81
The two key ideas are that our framework (1) jointly learns sketch-to-photo and photo-to-sketch translation to make unsupervised opendomain adaption possible, and (2) applies the proposed open-domain training strategy to minimize the domain gap’s influence on the generator and better generalize the learned correspondence of in-domain sketch-photo samples to open-domain categories. 2つの鍵となる考え方は,(1)スケッチ・ツー・フォト・ツー・スケッチの翻訳を共同で学習し,教師なしのオープンドメイン適応を可能にすること,(2)ドメインギャップがジェネレータに与える影響を最小化し,ドメイン内スケッチ・フォトサンプルの学習対応をオープンドメインカテゴリに最適化することである。 0.68
Extensive experiments and user studies on diverse datasets demonstrate that our model can faithfully synthesize realistic photos for different categories of open-domain freehand sketches. 多様なデータセットに関する広範囲な実験とユーザ研究は、オープンドメインフリーハンドスケッチの異なるカテゴリのリアルな写真を忠実に合成できることを示しています。 0.60
We believe that AODA provides a novel idea to utilize scarce data in real-world scenarios. 我々はAODAが現実のシナリオで少ないデータを利用する新しいアイデアを提供すると考えている。 0.59
In future works, we will expand our method to handle more categories of natural images and explore a more efficient design to generate higher-resolution photos. 今後の研究では、自然画像のカテゴリをさらに増やし、高解像度の写真を生成するためのより効率的なデザインを探求する。 0.67
References [1] Andrew Aitken, Christian Ledig, Lucas Theis, Jose Caballero, Zehan Wang, and Wenzhe Shi. 参考文献 Andrew Aitken、Christian Ledig、Lucas Theis、José Caballero、Zehan Wang、Wenzhe Shi。 0.63
Checkerboard artifact free sub-pixel convolution: A note on sub-pixel convolution, resize convolution and convolution resize. checkerboard artifact free sub-pixel convolution: a note on sub-pixel convolution, resize convolution and convolution resize。 0.86
arXiv preprint arXiv:1707.02937, 2017. arXiv preprint arXiv:1707.02937, 2017 0.80
14 Input (a) (b) 14 入力 (a) (b) 0.82
(c) (d) Figure 10: Ablation study of the proposed solution. (c) (d) 図10:提案された解のアブレーション研究。 0.82
(a): baseline without classifier or strategy; (b): our framework without strategy; (c) trained with pre-extracted opendomain and real in-domain sketches; (d): random-mixed sampling strategy. (a)分類器や戦略を持たないベースライン;(b)戦略のない我々のフレームワーク;(c)事前抽出されたopendomainと実際のドメイン内スケッチで訓練された;(d)ランダム混合サンプリング戦略 0.83
Open-domain class is marked with (cid:70). オープンドメインクラスは (cid:70) でマークされる。 0.64
sized from real sketches ((cid:78)), and photos prec reconstructed from fake sketches (•).As shown in the left plot, for the model trained without any strategy, even with class label conditioning, embeddings of different categories severely overlap. 実際のスケッチ (cid:78) と偽のスケッチ (•) から事前に再構成された写真からサイズを指定した左プロットに示すように、クラスラベル条件付きであっても、戦略なしで訓練されたモデルでは、異なるカテゴリの埋め込みが著しく重複している。 0.64
For most in-domain classes, the distance between pf ake and prec is much larger than the inter-class distance. ほとんどのドメインクラスでは、pf ake と prec の間の距離はクラス間距離よりもはるかに大きい。 0.78
At the same time, the distribution of open-domain classes (• and •) is well-separated from the in-domain classes, which implies that this model cannot overcome the gap between the in-domain and open-domain data thus fails to synthesize realistic and distinct photos for multiple classes. 同時に、オープンドメインクラス (• および •) の分布は、ドメイン内のクラスから十分に分離されているため、このモデルは、ドメイン内のデータとオープンドメインデータのギャップを克服できないため、複数のクラスで現実的で異なる写真を合成できない。 0.72
Instead, it associates the open-domain generation’s regressed objective function (Equation 2) with the class label conditioning. 代わりに、open-domain generationのregressed objective function (equation 2) とクラスラベル条件付けを関連付ける。 0.72
As a result, the bias caused by missing sketches in the training set is amplified. これにより、トレーニングセット内のスケッチの欠落によるバイアスが増幅される。 0.65
While in the right plot, those issues are greatly alleviated with our proposed training strategy. 適切なプロットでは、これらの問題は、提案したトレーニング戦略によって大幅に緩和されます。 0.50
The inter-class distances are greatly maximized with the aid of the random-mixed sampling strategy, which corresponds to more distinctive visual features (textures, colors, shapes, etc.) クラス間距離は、より特徴的な視覚的特徴(テクスチャ、色、形状など)に対応するランダム混合サンプリング戦略によって大幅に最大化される。 0.78
for each category. The intra-class distances are minimized, as shown in the right figure. カテゴリーごとに。 クラス内距離は、右図に示すように最小化される。 0.72
This is likely due to the blind mixed sampling implicitly encouraging the sketch-toimage generator to ignore the domain gap between real and fake sketch inputs for all classes. これは、暗黙的にスケッチ・トイメージ・ジェネレータに、すべてのクラスの実と偽のスケッチインプットの間のドメインギャップを無視するよう促すブラインド・ミックス・サンプリングが原因である可能性が高い。
訳抜け防止モード: これはおそらく、スケッチを暗黙的に奨励するブラインド混合サンプリングによるものである。 すべてのクラスにおいて、実と偽のスケッチ入力の間のドメインギャップを無視する。
0.53
9 9 0.85
英語(論文から抽出)日本語訳スコア
Figure 11: t-SNE visualization of photo embeddings from without any strategy, and with the random-mixed sampling strategy models. 図11: ランダムに混合したサンプリング戦略モデルを用いて、何の戦略もなく、写真埋め込みのt-sne可視化。
訳抜け防止モード: 図11 : t - 戦略のない写真埋め込みのSNE可視化 そして、ランダム-混合サンプリング戦略モデルで。
0.83
Different colors refer to different categories. 異なる色は異なるカテゴリーを指す。 0.82
Our strategies can make the generator learn more separable embeddings for different categories, regardless of in-domain or open-domain data. 私たちの戦略は、ドメイン内データやオープンドメインデータに関係なく、ジェネレータが異なるカテゴリの分離可能な埋め込みを学習できるようにします。 0.53
nM = 0 1 2 nM = 0 1 2 0.85
3 4 5 6 Figure 12: Examples for the influence of missing sketches on Scribble [19]. 3 4 5 6 図12: 欠落したスケッチがScribbleに与える影響の例 [19]。 0.83
The output quality of both in-domain and open-domain ((cid:70)) classes degrades with the increase of nM. ドメイン内およびオープンドメイン((cid:70))クラスの出力品質はnMの増加とともに低下する。 0.78
[2] Oron Ashual and Lior Wolf. オーロン・アシュアル(Oron Ashual)とリオル・ウルフ(Lior Wolf)。 0.47
Specifying object attributes and relations in interactive scene generation. 対話型シーン生成におけるオブジェクト属性と関係の特定 0.80
In Proceedings of the IEEE International Conference on Computer Vision, pages 4561–4569, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 4561–4569, 2019。 0.91
6 [3] Ayan Kumar Bhunia, Yongxin Yang, Timothy M Hospedales, Tao Xiang, and Yi-Zhe Song. 6 [3]Ayan Kumar Bhunia, Yongxin Yang, Timothy M Hospedales, Tao Xiang, Yi-Zhe Song 0.81
Sketch less for more: On-the-fly fine-grained sketch-based image In Proceedings of the IEEE/CVF Conference retrieval. Sketch less for more: On-the-fly fine-grained sketch-based image In Proceedings of the IEEE/CVF Conference retrieve。 0.67
on Computer Vision and Pattern Recognition, pages 9779–9788, 2020. コンピュータビジョンとパターン認識について、ページ9779-9788, 2020。 0.75
1 [4] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. 1 Holger Caesar氏、Jasper Uijlings氏、Vittorio Ferrari氏。 0.69
CocoIn Proceedings stuff: Thing and stuff classes in context. CocoIn Proceedings things: Thing and stuff classes in context。 0.82
of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1209–1218, 2018. IEEE Conference on Computer Vision and Pattern Recognition, page 1209–1218, 2018。 0.80
1, 5 [5] Jiaxin Chen and Yi Fang. 1, 5 5]jiaxin chenとyi fang。 0.68
Deep cross-modality adaptation via semantics preserving adversarial learning for sketch-based 3d shape retrieval. スケッチに基づく3次元形状検索のための逆学習のセマンティクスによる奥行き適応 0.59
In Proceedings of the European Conference on Computer Vision (ECCV), pages 605–620, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年、605-620頁。 0.79
1 [6] Shu-Yu Chen, Wanchao Su, Lin Gao, Shihong Xia, and Hongbo Fu. 1[6]チェン、ワンチャオ・スー、リン・ガオ、シホン・シャア、ホンボフー。 0.52
Deepfacedrawing: deep generation of face images from sketches. deepfacedrawing: スケッチからの顔画像の深い生成。 0.80
ACM Transactions on Graphics (TOG), 39(4):72–1, 2020. ACM Transactions on Graphics (TOG), 39(4):72–1, 2020 0.85
1, 2 [7] Tao Chen, Ming-Ming Cheng, Ping Tan, Ariel Shamir, and Shi-Min Hu. 1, 2 [7]陳道、明明、唐、アリエル・シャミール、シミン・フー。 0.67
Sketch2photo: Internet image montage. Sketch2photo: インターネット画像モンタージュ。 0.76
ACM Transactions on Graphics (TOG), 28(5):1–10, 2009. ACM Transactions on Graphics (TOG), 28(5):1-10, 2009 0.84
2 10 [8] Tao Chen, Ping Tan, Li-Qian Ma, Ming-Ming Cheng, Ariel Shamir, and Shi-Min Hu. 2 10 [8]タオチェン、ピンタン、リキアンマ、明明チェン、アリエル・シャミル、シミン・フ。 0.71
Poseshop: Human image database construction and personalized content synthesis. poseshop: 画像データベースの構築とパーソナライズされたコンテンツ合成。 0.78
IEEE Transactions on Visualization and Computer Graphics, 19(5):824–837, 2012. IEEE Transactions on Visualization and Computer Graphics, 19(5):824–837, 2012 0.92
2 [9] Wengling Chen and James Hays. 2 9]Chen氏とJames Hays氏。 0.74
Sketchygan: Towards diIn Proceedverse and realistic sketch to image synthesis. Sketchygan: diIn Proceedverseとリアルなスケッチから画像合成へ。 0.72
ings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9416–9425, 2018. IEEE Conference on Computer Vision and Pattern Recognition, page 9416–9425, 2018を参照。 0.83
1, 2, 3 [10] John Collomosse, Tu Bui, and Hailin Jin. 1, 2, 3 10] ジョン・コロモッセ、トゥ・ブイ、ハリン・ジン 0.63
Livesketch: Query perturbations for guided sketch-based visual search. Livesketch: ガイド付きスケッチベースのビジュアル検索のためのクエリ摂動。 0.59
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2879–2887, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 2879–2887, 2019。 0.90
1 [11] Guoxian Dai, Jin Xie, Fan Zhu, and Yi Fang. 1 [11]グオキシャン・ダイ、ジン・シー、ファン・チュー、イ・ファン 0.68
Deep correlated metric learning for sketch-based 3d shape retrieval. スケッチ型3次元形状検索のための深相関メトリック学習 0.66
In Thirty-First AAAI Conference on Artificial Intelligence, 2017. 2017年、第30回AIAI Conference on Artificial Intelligenceに参加。 0.68
1 [12] Tali Dekel, Chuang Gan, Dilip Krishnan, Ce Liu, and William T Freeman. 1 12]Tali Dekel、Chuang Gan、Dilip Krishnan、Ce Liu、William T Freeman。 0.73
Sparse, smart contours to represent In Proceedings of the IEEE Conference and edit images. IEEE ConferenceのIn Proceedingsを表現し、画像を編集するスマートな輪郭。 0.67
on Computer Vision and Pattern Recognition, pages 3511– 3520, 2018. コンピュータビジョンとパターン認識』、3511–3520, 2018。 0.69
1 [13] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 1 [13]Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li、Li Fei-Fei。 0.81
Imagenet: A large-scale hierarchical image database. Imagenet: 大規模な階層型イメージデータベース。 0.85
In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. 2009年、ieee conference on computer vision and pattern recognition 248-255ページ。 0.80
IEEE, 2009. 2009年、IEEE。 0.68
2 [14] Sounak Dey, Pau Riba, Anjan Dutta, Josep Llados, and YiZhe Song. 2 14] Sounak Dey, Pau Riba, Anjan Dutta, Josep Llados, YiZhe Song 0.74
Doodle to search: Practical zero-shot sketchIn Proceedings of the IEEE Conbased image retrieval. Doodle to search: Practical zero-shot sketchIEEE Conbased image searchの成果。 0.72
ference on Computer Vision and Pattern Recognition, pages 2179–2188, 2019. コンピュータビジョンとパターン認識への言及 2179–2188, 2019。 0.78
1 [15] Anjan Dutta and Zeynep Akata. 1 [15]アンジャン・デュッタとゼーネップ・アカタ。 0.71
Semantically tied paired cycle consistency for zero-shot sketch-based image retrieval. ゼロショットスケッチに基づく画像検索のためのセマンティックなペアサイクル整合性 0.52
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5089–5098, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 5089–5098, 2019。 0.90
1 [16] Mathias Eitz, James Hays, and Marc Alexa. 1 Mathias Eitz氏、James Hays氏、Marc Alexa氏。 0.74
How do humans ACM Transactions on Graphics (TOG), 人間 ACM Transactions on Graphics (TOG) について 0.73
sketch objects? 31(4):1–10, 2012. スケッチ? 31(4):1–10, 2012. 0.65
1, 5 w/o strategyw/ random-mixed𝑝! 1, 5 w/o strategyw/random-mix edp! 0.71
"#$𝑝%$& "#$𝑝%$& 0.64
英語(論文から抽出)日本語訳スコア
[17] Mathias Eitz, Ronald Richter, Kristian Hildebrand, Tamy Boubekeur, and Marc Alexa. Mathias Eitz氏、Ronald Richter氏、Kristian Hildebrand氏、Tamy Boubekeur氏、Marc Alexa氏。 0.67
Photosketcher: interactive sketch-based image synthesis. Photoketcher: インタラクティブなスケッチベースの画像合成。 0.68
IEEE Computer Graphics and Applications, 31(6):56–66, 2011. IEEE Computer Graphics and Applications, 31(6):56–66, 2011 0.89
2 [18] Chengying Gao, Qi Liu, Qi Xu, Limin Wang, Jianzhuang Image generLiu, and Changqing Zou. 2 [18]清華経、Qi Liu、Qi Xu、Limin Wang、Jianzhuang Image generLiu、Changqing Zou。 0.73
In Proceedings of ation from freehand scene sketches. フリーハンドのスケッチから引用する。 0.35
the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5174–5183, 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 5174–5183, 2020 0.91
1, 2, 3, 5, 6, 7, 8 1, 2, 3, 5, 6, 7, 8 0.85
Sketchycoco: Sketchycoco 0.46
[19] Arnab Ghosh, Richard Zhang, Puneet K Dokania, Oliver Wang, Alexei A Efros, Philip HS Torr, and Eli Shechtman. Arnab Ghosh氏、Richard Zhang氏、Puneet K Dokania氏、Oliver Wang氏、Alexei A Efros氏、Philip HS Torr氏、Eli Shechtman氏。 0.70
Interactive sketch & fill: Multiclass sketch-to-image translation. interactive sketch & fill: multiclass sketch-to-image translation (英語) 0.65
In Proceedings of the IEEE International Conference on Computer Vision, pages 1171–1180, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 1171–1180, 2019。 0.91
1, 2, 3, 5, 6, 7, 9, 10, 15 1, 2, 3, 5, 6, 7, 9, 10, 15 0.85
[20] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Ian Goodfellow氏、Jean Pouget-Abadie氏、Mehdi Mirza氏、Bing Xu氏、David Warde-Farley氏、Sherjil Ozair氏、Aaron Courville氏、Yoshua Bengio氏。 0.72
Generative adversarial nets. In Advances in Neural Information Processing Systems, pages 2672–2680, 2014. 敵ネットの生成。 Advanceds in Neural Information Processing Systems, pages 2672–2680, 2014 0.70
1, 2, 5 [21] David Ha and Douglas Eck. 1, 2, 5 21]デヴィッド・ハとダグラス・エク 0.72
A neural representation of sketch drawings. スケッチの絵の神経表現。 0.63
arXiv preprint arXiv:1704.03477, 2017. arXiv preprint arXiv:1704.03477, 2017 0.80
1, 2, 5 [22] Xiaoguang Han, Chang Gao, and Yizhou Yu. 1, 2, 5 [22]Xiaoguang Han、Chang Gao、Yizhou Yu。 0.72
Deepsketch2face: a deep learning based sketching system for 3d face and caricature modeling. Deepsketch2face: 3D顔と似顔絵モデリングのためのディープラーニングベースのスケッチシステム。 0.70
ACM Transactions on Graphics (TOG), 36(4):1–12, 2017. ACM Transactions on Graphics (TOG), 36(4):1-12, 2017 0.85
1 [23] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. 1 [23]Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Sepp Hochreiter。 0.80
Gans trained by a two time-scale update rule converge to a local nash equilibIn Advances in Neural Information Processing Sysrium. 2つの時間スケール更新規則で訓練されたganは、神経情報処理システムにおける局所nash平衡に収束する。 0.60
tems, pages 6626–6637, 2017. tems, 6626-6637, 2017頁。 0.73
6 [24] Xun Huang and Serge Belongie. 6 [24]Xun HuangとSerge Belongie。 0.80
Arbitrary style transfer in real-time with adaptive instance normalization. 適応インスタンス正規化による任意スタイルのリアルタイム転送 0.72
In Proceedings of the IEEE International Conference on Computer Vision, pages 1501–1510, 2017. In Proceedings of the IEEE International Conference on Computer Vision, page 1501–1510, 2017 0.86
14 [25] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. 14 [25]Xun Huang、Ming-Yu Liu、Serge Belongie、Jan Kautz。 0.80
Multimodal unsupervised image-to-image translation. マルチモーダル非教師付き画像-画像間翻訳 0.47
In Proceedings of the European Conference on Computer Vision (ECCV), pages 172–189, 2018. Proceedings of the European Conference on Computer Vision (ECCV), page 172–189, 2018。 0.81
1 [26] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Image-to-image translation with conditional adverEfros. 1 [26]Phillip Isola、Jun-Yan Zhu、Tinghui Zhou、Alexei A Image-to-image translation with Conditional adverefros。 0.82
In Proceedings of the IEEE Conference sarial networks. In Proceedings of the IEEE Conference sarial network。 0.75
on Computer Vision and Pattern Recognition, pages 1125– 1134, 2017. コンピュータビジョンとパターン認識について、2017年1125-1134頁。 0.68
1 [27] Youngjoo Jo and Jongyoul Park. 1 27] ヨンジュール公園と ヨンジュール公園 0.67
Sc-fegan: Face editing generative adversarial network with user’s sketch and color. Sc-Fegan: ユーザのスケッチとカラーで生成する敵ネットワークを編集する。 0.80
In Proceedings of the IEEE International Conference on Computer Vision, pages 1745–1753, 2019. In Proceedings of the IEEE International Conference on Computer Vision, page 1745–1753, 2019。 0.92
1 [28] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 1 [28]Justin Johnson、Alexandre Alahi、Li Fei-Fei。 0.77
Perceptual losses for real-time style transfer and super-resolution. リアルタイム型転送と超解像における知覚的損失 0.56
In Proceedings of the European Conference on Computer Vision (ECCV), pages 694–711, 2016. Proceedings of the European Conference on Computer Vision (ECCV) にて、694-711, 2016。 0.78
14 [29] Justin Johnson, Agrim Gupta, and Li Fei-Fei. 14 [29]Justin Johnson, Agrim Gupta, Li Fei-Fei 0.77
Image generation from scene graphs. シーングラフからの画像生成。 0.77
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1219–1228, 2018. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 1219–1228, 2018。 0.89
2 [30] Moritz Kampelmuhler and Axel Pinz. 2 [30] Moritz Kampelmuhler と Axel Pinz。 0.83
Synthesizing humanlike sketches from natural images using a conditional convolutional decoder. 条件付き畳み込みデコーダを用いた自然画像からの人型スケッチの合成 0.79
In The IEEE Winter Conference on Applications of Computer Vision, pages 3203–3211, 2020. IEEE Winter Conference on Applications of Computer Vision, page 3203–3211, 2020。 0.80
7 [31] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwanghee Lee. 7 [31]Junho Kim、Minjae Kim、Hyeonwoo Kang、Kwanghee Lee。 0.76
U-gat-it: unsupervised generative attentional networks with adaptive layer-instance normalization for image-toimage translation. U-gat-it: イメージトイメージ翻訳のための適応層インスタンス正規化を用いた教師なし生成注意ネットワーク。 0.54
arXiv preprint arXiv:1907.10830, 2019. arXiv preprint arXiv:1907.10830, 2019 0.81
1 [32] Diederik P Kingma and Jimmy Ba. 1 [32]Diederik P KingmaとJimmy Ba。 0.82
Adam: A method for arXiv preprint arXiv:1412.6980, Adam: arXiv preprint arXiv:1412.6980, 0.89
stochastic optimization. 2014. 確率最適化。 2014. 0.74
5, 6 [33] Christian Ledig, Lucas Theis, Ferenc Husz´ar, Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al Photorealistic single image super-resolution using a generative adversarial network. 5, 6 33]christian ledig, lucas theis, ferenc husz ́ar, jose caballero, andrew cunningham, alejandro acosta, andrew aitken, alykhan tejani, johannes totz, zehan wang, et al photorealistic single image super- resolution using a generative adversarial network (英語)
訳抜け防止モード: 5, 6 Theis, Ferenc Husz ́ar.[33 ] Christian Ledig, Lucas Theis, Ferenc Husz ́ar. Jose Caballero, Andrew Cunningham, Alejandro Acosta, Andrew Aitken Alykhan Tejani, Johannes Totz, Zehan Wang, et al Photorealistic single image super - resolution using a generative adversarial network。
0.89
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4681– 4690, 2017. IEEE Conference on Computer Vision and Pattern Recognition のProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 4681– 4690, 2017 0.75
5, 14 [34] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. 5, 14 [34]Hsin-Ying Lee、Hung-Yu Tseng、Jia-Bin Huang、Maneesh Singh、Ming-Hsuan Yang。 0.81
Diverse image-to-image In Proceedtranslation via disentangled representations. 逆画像から画像への変換における不整合表現 0.47
ings of the European conference on computer vision (ECCV), pages 35–51, 2018. ings of the european conference on computer vision (eccv)、2018年35-51頁。 0.75
1 [35] Chuan Li and Michael Wand. 1 [35]Chuan LiとMichael Wand。 0.82
Precomputed real-time texture synthesis with markovian generative adversarial networks. マルコフ生成逆数ネットワークを用いた実時間テクスチャ合成 0.60
In Proceedings of the European Conference on Computer Vision (ECCV), pages 702–716, 2016. Proceedings of the European Conference on Computer Vision (ECCV) 2016年、702-716頁。 0.81
14 [36] Da Li, Yongxin Yang, Yi-Zhe Song, and Timothy M Hospedales. 14 [36]Da Li、Yongxin Yang、Yi-Zhe Song、Timothy M Hospedales。 0.75
Deeper, broader and artier domain generalization. より深く、より広く、より高度なドメインの一般化。 0.46
In Proceedings of the IEEE International Conference on Computer Vision, pages 5542–5550, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 5542–5550, 2017 0.85
1 [37] Mengtian Li, Zhe Lin, Radomir Mech, Ersin Yumer, and Deva Ramanan. 1 [37]Mengtian Li, Zhe Lin, Radomir Mech, Ersin Yumer, Deva Ramanan。 0.79
Photo-sketching: Inferring contour drawings from images. Photo-Sketching: 画像から輪郭図面を推測する。 0.65
In 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1403–1412. 2019年、IEEE Winter Conference on Applications of Computer Vision (WACV)、1403–1412頁。 0.85
IEEE, 2019. 2019年、IEEE。 0.67
1 [38] Yuhang Li, Xuejin Chen, Feng Wu, and Zheng-Jun Zha. 1 [38]李ユハン、陳Xuejin、Feng Wu、Zheng-Jun Zha。 0.77
Linestofacephoto: Face photo generation from lines with conditional self-attention generative adversarial networks. linestofacephoto: 条件付き自己アテンション生成広告ネットワークによる顔写真生成。 0.68
In Proceedings of the 27th ACM International Conference on Multimedia, pages 2323–2331, 2019. 第27回acm国際マルチメディア会議の議事録2323-2331, 2019ページ。 0.70
1, 2 [39] Yuhang Li, Xuejin Chen, Binxin Yang, Zihan Chen, Zhihua Cheng, and Zheng-Jun Zha. 1, 2 [39]李勇、陳玄進、陽ビンシン、チェン、チョワ・チョン、チャン・ジュン・ジャ 0.70
Deepfacepencil: Creating face images from freehand sketches. deepfacepencil: フリーハンドスケッチから顔画像を作成する。 0.80
In Proceedings of the 28th ACM International Conference on Multimedia, pages 991– 999, 2020. 第28回ACM国際マルチメディア会議(ACM International Conference on Multimedia, 991-999, 2020)の開催。 0.72
1 [40] Yi Li, Timothy M. Hospedales, Yi-Zhe Song, and Shaogang Gong. 1 [40]Yi Li、Timothy M. Hospedales、Yi-Zhe Song、Shaogang Gong。 0.80
Fine-grained sketch-based image retrieval by matchIn In British Machine Vision ing deformable part models. MatchIn In British Machine Vision ing deformable part modelによるきめ細かいスケッチベース画像検索 0.70
Conference (BMVC), 2014. 2014年(平成14年)、BMVC。 0.58
1 [41] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Doll´ar. 1 [41]通義林、プリヤ・ゴヤル、ロス・ギルシック、カイミング・ヘ、ピョートル・ドル。 0.66
Focal loss for dense object detection. 密度物体検出のための焦点損失 0.79
In Proceedings of the IEEE International Conference on Computer Vision, pages 2980–2988, 2017. In Proceedings of the IEEE International Conference on Computer Vision, page 2980–2988, 2017 0.86
6 [42] Fang Liu, Changqing Zou, Xiaoming Deng, Ran Zuo, YuKun Lai, Cuixia Ma, Yong-Jin Liu, and Hongan Wang. 6 [42]Fang Liu, Changqing Zou, Xiaoming Deng, Ran Zuo, YuKun Lai, Cuixia Ma, Yong-Jin Liu, Hong Wang 0.81
11 11 0.85
英語(論文から抽出)日本語訳スコア
Scenesketcher: Fine-grained image retrieval with scene sketches. Scenesketcher: シーンスケッチによるきめ細かい画像検索。 0.72
2020. 1 [43] Li Liu, Fumin Shen, Yuming Shen, Xianglong Liu, and Ling Shao. 2020. 1 [43]Li Liu、Fumin Shen、Yumming Shen、Xianglong Liu、Ling Shao。 0.79
Deep sketch hashing: Fast free-hand sketch-based In Proceedings of the IEEE Conference image retrieval. deep sketch hashing: ieee conferenceの画像検索の手順に基づく高速フリーハンドスケッチ。 0.69
on Computer Vision and Pattern Recognition, pages 2862– 2871, 2017. コンピュータビジョンとパターン認識』2862-2871頁、2017年。 0.68
1 [44] Ming-Yu Liu, Thomas Breuel, and Jan Kautz. 1 44]Ming-Yu Liu、Thomas Breuel、Jan Kautz。 0.80
Unsupervised image-to-image translation networks. 教師なし画像と画像の翻訳ネットワーク。 0.47
In Advances in Neural Information Processing Systems, pages 700–708, 2017. In Advances in Neural Information Processing Systems, page 700–708, 2017 0.87
1 [45] Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, and Jan Kautz. 1 [45]Ming-Yu Liu,Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz。 0.83
Few-shot unsuperIn Proceedings of the vised image-to-image translation. Few-shot unsuper画像から画像への変換のプロセッシング。 0.53
IEEE International Conference on Computer Vision, pages 10551–10560, 2019. IEEE International Conference on Computer Vision, page 10551–10560, 2019 0.88
2 [46] Runtao Liu, Qian Yu, and Stella Yu. 2 [46]ルンタオ・リュ、キアン・ユ、ステラ・ユ。 0.65
Unsupervised sketchto-photo synthesis. 教師なしのスケッチトフォト合成。 0.49
arXiv preprint arXiv:1909.08313, 2019. arXiv preprint arXiv:1909.08313, 2019 0.81
1, 2, 3, 6 1, 2, 3, 6 0.85
[47] Yongyi Lu, Shangzhe Wu, Yu-Wing Tai, and Chi-Keung Tang. [47]永如、宋周、元慶台、智慶唐。 0.51
Image generation from sketch constraint using contextual gan. コンテキストganを用いたスケッチ制約からの画像生成 0.74
In Proceedings of the European Conference on Computer Vision (ECCV), pages 205–220, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年、205-220頁。 0.78
1, 2 [48] Zhaoliang Lun, Matheus Gadelha, Evangelos Kalogerakis, Subhransu Maji, and Rui Wang. 1, 2 [48]Zhaoliang Lun、Matheus Gadelha、Evangelos Kalogerakis、Subhransu Maji、Rui Wang。 0.74
3d shape reconstruction from sketches via multi-view convolutional networks. マルチビュー畳み込みネットワークによるスケッチからの3次元形状復元 0.76
In 2017 International Conference on 3D Vision (3DV), pages 67–77. 2017年、国際3Dビジョン会議(3DV)67-77頁。 0.81
IEEE, 2017. 2017年、IEEE。 0.63
1 [49] Mehdi Mirza and Simon Osindero. 1 Mehdi Mirza氏とSimon Osindero氏。 0.73
Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014. 条件生成 敵の網だ arXiv preprint arXiv:1411.1784, 2014 0.70
2 [50] Augustus Odena. 2 オーガスタス・オデナ(Augustus Odena)。 0.70
Semi-supervised learning with generative adversarial networks. 生成逆ネットワークを用いた半教師付き学習 0.61
arXiv preprint arXiv:1606.01583, 2016. arXiv preprint arXiv:1606.01583, 2016 0.80
2 [51] Augustus Odena, Christopher Olah, and Jonathon Shlens. 2 [51] アウグストゥス・オデナ、クリストファー・オラ、ジョナトン・シュレンス 0.60
Conditional image synthesis with auxiliary classifier gans. 補助分類器gansを用いた条件画像合成 0.81
In International Conference on Machine Learning, pages 2642–2651, 2017. International Conference on Machine Learning, page 2642–2651, 2017 0.79
2 [52] Kyle Olszewski, Duygu Ceylan, Jun Xing, Jose Echevarria, Zhili Chen, Weikai Chen, and Hao Li. 2 [52]Kyle Olszewski, Duygu Ceylan, Jun Xing, Jose Echevarria, Zhili Chen, Weikai Chen, Hao Li 0.77
Intuitive, interactive beard and hair synthesis with generative models. 直感的で対話的なひげと髪の合成と生成モデル 0.70
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7446–7456, 2020. The Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 7446–7456, 2020。 0.91
1 [53] Pau Panareda Busto and Juergen Gall. 1 [53]Pau Panareda BustoとJuergen Gall。 0.79
Open set domain adaptation. open set domain adaptation の略。 0.65
In Proceedings of the IEEE International Conference on Computer Vision, pages 754–763, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 754–763, 2017 0.85
2 [54] Kaiyue Pang, Da Li, Jifei Song, Yi-Zhe Song, Tao Xiang, and Timothy M Hospedales. 2 [54]Kayue Pang, Da Li, Jifei Song, Yi-Zhe Song, Tao Xiang, Timothy M Hospedales。 0.81
Deep factorised inverseIn Proceedings of the European Conference on sketching. ディープファクター inverse スケッチに関するヨーロッパ会議の成果。 0.57
Computer Vision (ECCV), pages 36–52, 2018. Computer Vision (ECCV)、36-52頁、2018年。 0.78
7 [55] Kaiyue Pang, Ke Li, Yongxin Yang, Honggang Zhang, Timothy M Hospedales, Tao Xiang, and Yi-Zhe Song. 7 [55]カイユーパン、ケリ、ヨンシンヤン、香港張、ティモシー・M・ホスペダレス、タオ・チャン、ヨジ・ソング。
訳抜け防止モード: 7 [55 ]カイユー・パン、ケ・リ、ヨンシン・ヤン、 香港zhang、timothy m hospedales、tao xiang、yi - zhe song。
0.70
Generalising fine-grained sketch-based image retrieval. きめ細かいスケッチに基づく画像検索の一般化 0.61
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 677–686, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 677–686, 2019。 0.90
1 [56] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. 1 [56]テエスンパーク、ミン・ユ・リュー、ティン・チュン・ワン、ジュン・ヤン・ジュ 0.66
Semantic image synthesis with spatially-adaptive normalization. 空間適応正規化による意味画像合成 0.77
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2337–2346, 2019. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2337–2346, 2019。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 2337-2346頁、2019年。
0.78
2 [57] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. 2 57]Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, Adam Lerer 0.79
Automatic differentiation in pytorch. pytorch (複数形 pytorchs) 0.59
2017. 6 [58] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: An imperative style, high-performance deep learning library. 2017. 6 58]Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al Pytorch: 命令型スタイルで高性能なディープラーニングライブラリ。 0.83
In Advances in Neural Information Processing Systems, pages 8026–8037, 2019. Advanceds in Neural Information Processing Systems, page 8026–8037, 2019。 0.82
6 [59] Tiziano Portenier, Qiyang Hu, Attila Szabo, Siavash Arjomand Bigdeli, Paolo Favaro, and Matthias Zwicker. 6 59]Tiziano Portenier, Qiyang Hu, Attila Szabo, Siavash Arjomand Bigdeli, Paolo Favaro, Matthias Zwicker。 0.79
Faceshop: Deep sketch-based face image editing. faceshop: 深いスケッチベースの顔画像編集。 0.82
arXiv preprint arXiv:1804.08972, 2018. arXiv preprint arXiv:1804.08972, 2018 0.79
1 [60] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. 1 Patsorn Sangkloy氏、Nathan Burnell氏、Cusuh Ham氏、James Hays氏。 0.75
The sketchy database: learning to retrieve badly drawn bunnies. まじめなデータベース: ひどい描画されたバニーを回収する学習。 0.66
ACM Transactions on Graphics (TOG), 35(4):1–12, 2016. ACM Transactions on Graphics (TOG), 35(4):1-12, 2016 0.85
1, 5 [61] Yuefan Shen, Changgeng Zhang, Hongbo Fu, Kun Zhou, and Youyi Zheng. 1, 5 [61]ユエファン・シェン、チャンギン・チャン、ホンボ・フー、クン・周、ユイ・ジン 0.69
Deepsketchhair: Deep sketch-based 3d hair modeling. deepsketchhair: スケッチベースの3dヘアモデリング。 0.82
arXiv preprint arXiv:1908.07198, 2019. arXiv preprint arXiv:1908.07198, 2019 0.81
1 [62] Wenzhe Shi, Jose Caballero, Ferenc Husz´ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. 1 Wenzhe Shi, Jose Caballero, Ferenc Husz ́ar, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, Zehan Wang。 0.78
Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. 効率的なサブピクセル畳み込みニューラルネットワークを用いたリアルタイム単一画像とビデオ超解像 0.67
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1874–1883, 2016. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 1874–1883, 2016 0.85
14 [63] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, and Russell Webb. 14 63] Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Joshua Susskind, Wenda Wang, Russell Webb。 0.78
Learning from simulated and unsupervised images through adversarial training. 敵対的訓練によるシミュレーション画像および教師なし画像からの学習 0.66
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2107–2116, 2017. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 2107–2116, 2017。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 2107-2116頁、2017年。
0.81
5 [64] Jifei Song, Qian Yu, Yi-Zhe Song, Tao Xiang, and Timothy M Hospedales. 5 [64]Jifei Song, Qian Yu, Yi-Zhe Song, Tao Xiang, Timothy M Hospedales。 0.82
Deep spatial-semantic attention for finegrained sketch-based image retrieval. きめ細かいスケッチに基づく画像検索のための深部空間意味的注意 0.56
In Proceedings of the IEEE International Conference on Computer Vision, pages 5551–5560, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 5551–5560, 2017 0.85
1, 3, 6 [65] Song Tao and Jia Wang. 1, 3, 6 [65]Song TaoとJia Wang。 0.81
Alleviation of gradient exploding in In Proceedings of the IEEE/CVF gans: Fake can be real. In Proceedings of the IEEE/CVF gans: Fake can be real。
訳抜け防止モード: IEEE/CVFガンの過程における勾配爆発の緩和 偽物は本物かもしれない。
0.67
Conference on Computer Vision and Pattern Recognition, pages 1191–1200, 2020. コンピュータビジョンとパターン認識に関する会議、1191-1200, 2020頁。 0.80
7 [66] Dmitry Ulyanov, Andrea Vedaldi, and Victor Lempitsky. 7 66]Dmitry Ulyanov、Andrea Vedaldi、Victor Lempitsky。 0.73
Instance normalization: The missing ingredient for fast stylization. インスタンス正規化: 高速なスタイライゼーションのための欠落成分。 0.59
arXiv preprint arXiv:1607.08022, 2016. arXiv preprint arXiv:1607.08022, 2016 0.79
14 [67] Laurens van der Maaten and Geoffrey Hinton. 14 [67] Laurens van der MaatenとGeoffrey Hinton。 0.81
Visualizing data using t-SNE. t-sneによるデータの可視化 0.49
Journal of Machine Learning Research, 9(86):2579–2605, 2008. Journal of Machine Learning Research, 9(86):2579–2605, 2008 0.91
8 [68] Fang Wang, Le Kang, and Yi Li. 8 [68]Fang Wang、Le Kang、Yi Li。 0.74
Sketch-based 3d shape retrieval using convolutional neural networks. 畳み込みニューラルネットワークを用いたスケッチ型3次元形状検索 0.70
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1875–1883, 2015. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 1875–1883, 2015 0.87
1 [69] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al Deep high-resolution representation learning for visual recognition. 1 69]jingdong wang, ke sun, tianheng cheng, borui jiang, chaorui deng, yang zhao, dong liu, yadong mu, mingkui tan, xinggang wang, et al deep high- resolution representation learning for visual recognition
訳抜け防止モード: 1 [69 ]ジンドン・ワン、ケ・サン、ティアン・チェン、 Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu Yadong Mu, Mingkui Tan, Xinggang Wang, et al High - 視覚認識のための解像度表現学習。
0.82
IEEE Transactions on Pattern Analysis and Machine intelligence, 2020. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020 0.75
14 12 14 12 0.85
英語(論文から抽出)日本語訳スコア
[70] Holger Winnem¨oller, Jan Eric Kyprianidis, and Sven C Olsen. 70] holger winnem soller、jan eric kyprianidis、sven c olsen。 0.46
Xdog: an extended difference-of-gaussi ans compendium including advanced image stylization. Xdog: 高度なイメージスタイリゼーションを含むガウスのコンペディションの拡張。 0.68
Computers & Graphics, 36(6):740–753, 2012. Computers & Graphics, 36(6):740-753, 2012 0.94
3 [71] Jin Xie, Guoxian Dai, Fan Zhu, and Yi Fang. 3 [71]ジン・ジー、グオキシャン・ダイ、ファン・チュー、イ・ファン 0.69
Learning barycentric representations of 3d shapes for sketch-based 3d shape retrieval. スケッチ型3次元形状検索のための3次元形状のバリセントリック表現の学習 0.58
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5068– 5076, 2017. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 5068–5076, 2017
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して pages 5068 – 5076 , 2017 .
0.79
1 [72] Shuai Yang, Zhangyang Wang, Jiaying Liu, and Zongming Guo. 1 [72]周愛、張陽、済寧、宗明王。 0.66
Deep plastic surgery: Robust and controllable imarXiv preprint age editing with human-drawn sketches. 深層プラスチック手術(Deep plastic surgery: Robust and controllable imarXiv preprint age editing with human-wn sketches)。 0.70
arXiv:2001.02890, 2020. arXiv:2001.02890, 2020。 0.63
1 [73] Sasi Kiran Yelamarthi, Shiva Krishna Reddy, Ashish Mishra, and Anurag Mittal. 1 [73]Sasi Kiran Yelamarthi, Shiva Krishna Reddy, Ashish Mishra, Anurag Mittal。 0.79
A zero-shot framework for sketch based image retrieval. スケッチベース画像検索のためのゼロショットフレームワーク 0.68
In Proceedings of the European Conference on Computer Vision (ECCV), pages 316–333, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年3月3日閲覧。 0.72
1 [74] Ran Yi, Yong-Jin Liu, Yu-Kun Lai, and Paul L Rosin. 1 [74]Ran Yi、Yong-Jin Liu、Yu-Kun Lai、Paul L Rosin。 0.80
Apdrawinggan: Generating artistic portrait drawings from face photos with hierarchical gans. apdrawinggan: 階層的なganで顔写真から芸術的な肖像画を作成する。 0.60
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10743–10752, 2019. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 10743–10752, 2019。
訳抜け防止モード: IEEE Conference on Computer Vision and Pattern Recognition に参加して 10743-10752、2019年。
0.75
7 [75] Qian Yu, Feng Liu, Yi-Zhe SonG, Tao Xiang, Timothy Hospedales, and Chen Change Loy. 7 [75]Qian Yu、Feng Liu、Yi-Zhe Song、Tao Xiang、Timothy Hospedales、Chen Change Loy。
訳抜け防止モード: 7 [75 ]Qian Yu, Feng Liu,Yi-Zhe Song, Tao Xiang氏、Timothy Hospedales氏、Chen Change Loy氏。
0.83
Sketch me that shoe. その靴をスケッチして 0.68
In Computer Vision and Pattern Recognition, 2016. コンピュータビジョンとパターン認識、2016年。 0.72
1, 3, 6 [76] Jingyi Zhang, Fumin Shen, Li Liu, Fan Zhu, Mengyang Yu, Ling Shao, Heng Tao Shen, and Luc Van Gool. 1, 3, 6 [76]ジンギ・チャン、フミン・シェン、Li Liu、Fan Zhu、Mengyang Yu、Ling Shao、Heng Tao Shen、Luc Van Gool。 0.77
Generative domain-migration hashing for sketch-to-image retrieval. スケッチ画像検索のための生成ドメイン移行ハッシュ 0.65
In Proceedings of the European Conference on Computer Vision (ECCV), pages 297–314, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年2月3日閲覧。 0.71
1 [77] Ruofan Zhou and Sabine Susstrunk. 1 [77] ルーファン・周と サビーン・サストルク。 0.68
Kernel modeling superIn Proceedings resolution on real low-resolution images. Kernel modeling superIn Proceedings resolution on real low- resolution image 0.84
of the IEEE International Conference on Computer Vision, pages 2433–2443, 2019. IEEE International Conference on Computer Vision, page 2433–2443, 2019。 0.81
5 [78] Fan Zhu, Jin Xie, and Yi Fang. 5 [78]Fan Zhu、Jin Xie、Yi Fang。 0.74
Learning cross-domain neural In Thirtieth クロスドメインニューラルネットワークの学習 0.67
networks for sketch-based 3d shape retrieval. スケッチ型3次元形状検索のためのネットワーク 0.63
AAAI Conference on Artificial Intelligence, 2016. AAAI Conference on Artificial Intelligence, 2016参加。 0.89
1 [79] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. 1 [79]Jun-Yan Zhu、Taesung Park、Phillip Isola、Alexei A Efros。 0.81
Unpaired image-to-image translation using cycleconsistent adversarial networks. 周期整合対向ネットワークを用いた不対向画像変換 0.67
In Proceedings of the IEEE International Conference on Computer Vision, pages 2223– 2232, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 2223–2232, 2017 0.79
1, 2, 5, 6, 7, 8, 14 1, 2, 5, 6, 7, 8, 14 0.85
[80] Peihao Zhu, Rameen Abdal, Yipeng Qin, and Peter Wonka. [80]Peihao Zhu、Rameen Abdal、Yipeng Qin、Peter Wonka。 0.71
Sean: Image synthesis with semantic region-adaptive norIn Proceedings of the IEEE/CVF Conference malization. Sean: IEEE/CVF Conferenceのレーショナルな領域適応型NordInによる画像合成。 0.74
on Computer Vision and Pattern Recognition, pages 5104– 5113, 2020. コンピュータビジョンとパターン認識について、2020年5104-5113頁。 0.72
2 [81] Changqing Zou, Qian Yu, Ruofei Du, Haoran Mo, Yi-Zhe Song, Tao Xiang, Chengying Gao, Baoquan Chen, and Hao Zhang. 2 [81]Changqing Zou, Qian Yu, Ruofei Du, Haoran Mo, Yi-Zhe Song, Tao Xiang, Chengying Gao, Baoquan Chen, Hao Zhang 0.81
Sketchyscene: Richly-annotated scene sketches. Sketchyscene: リッチな注釈付きスケッチ。 0.71
In Proceedings of the European Conference on Computer Vision (ECCV), pages 421–436, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年421-436頁。 0.76
1 13 1 13 0.85
英語(論文から抽出)日本語訳スコア
Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis スケッチから写真への合成における逆開領域適応 0.48
Supplementary Material Xiaoyu Xiang1, Ding Liu2, Xiao Yang2, Yiheng Zhu2, Xiaohui Shen2, Jan P. Allebach1 補足材料 Xiaoyu Xiang1, Ding Liu2, Xiao Yang2, Yiheng Zhu2, Xiaohui Shen2, Jan P. Allebach1 0.78
1Purdue University, 2ByteDance Inc. 1Purdue University, 2ByteDance Inc. 0.92
{xiang43,allebach}@purdue.edu, {xiang43,allebach}@purdue.edu, 0.88
{liuding,yangxiao.0,y iheng.zhu,shenxiaohu i}@bytedance.com {liuding,yangxiao.0,y iheng.zhu,shenxiaohu i}@bytedance.com 0.78
A. Network Architecture A。 ネットワークアーキテクチャ 0.74
In this section, we illustrate the architectures of our framework, including generators, discriminators, and a classifier. この節では、ジェネレータ、判別器、分類器を含む、我々のフレームワークのアーキテクチャを説明します。 0.63
Note that our proposed solution is not limited to certain network architecture. 提案するソリューションは,特定のネットワークアーキテクチャに限ったものではない。 0.76
In this work, we select the CycleGAN [79] as a baseline to illustrate the effectiveness of our proposed solution. 本研究では,提案手法の有効性を説明するために,サイクルガン[79]をベースラインとして選択する。 0.70
Thus we only modify the GB into a multi-class generator and keep the rest structures unchanged, as introduced below. したがって、GBをマルチクラスジェネレータに修正するだけで、残りの構造は変更されません。 0.66
Photo-to-Sketch Generator GA We adopt the architecture of the photo-to-sketch generator from Johnson et al [28]. photo-to-sketch generator ga johnson et al [28] による photo-to-sketch generator のアーキテクチャを採用しています。 0.63
It includes one convolution layer to map the RGB image to feature space, two downsampling layers, nine residual blocks, two upsampling layers, and one convolution layer that maps features back to the RGB image. RGBイメージを特徴空間にマッピングする1つの畳み込み層、2つのダウンサンプリング層、9つの残留ブロック、2つのアップサンプリング層、RGBイメージに機能をマップする1つの畳み込み層を含む。 0.77
Instance normalization [66] is used in this network. このネットワークではインスタンス正規化[66]が使用される。 0.73
This network is also adopted as the sketch extractor for the compared method in the main paper Section 3.1. このネットワークは、本文3.1において比較方法のスケッチ抽出器としても採用されている。 0.68
Multi-class Sketch-to-Photo Generator GB The overall structure of this network is similar to GA: a featuretwo downsampling layers, a few mapping convolution, residual blocks, two upsampling layers, and the RGBmapping convolution. マルチクラスのSketch-to-Photo Generator GB このネットワーク全体の構造はGAに似ている。
訳抜け防止モード: Multi - class Sketch -to - Photo Generator GB このネットワーク全体の構造はGAに似ています。 地図の畳み込み 残ったブロック 2つのアップサンプリング層 そして、RGBマッピングの畳み込み。
0.72
We make the following modifications on the residual blocks and upsampling layers for the multi-class photo generation, as illustrated in Figure 13. 図13に示すように、マルチクラスのフォトジェネレーションのための残差ブロックとアップサンプリング層に以下の変更を加えます。 0.80
To make the network capable of accepting class label information, we change the normalization layers of the residual blocks into adaptive instance normalization (AdaIN) [24]. ネットワークがクラスラベル情報を受け付けることができるようにするために、残差ブロックの正規化層をadaptive instance normalization (adain) [24] に変更する。 0.87
The sketch input serves as the content input for AdaIN, and the class label is the style input ensuring that the network learns the correct textures and colors for each category. スケッチ入力は、AdaINのコンテンツ入力として機能し、クラスラベルは、ネットワークが各カテゴリの正しいテクスチャや色を確実に学習するスタイル入力である。 0.78
In addition, we use convolution and PixelShuffle layers [62], instead of commonly used transposed convolution, to upsample the features. さらに、一般的に使われている変換畳み込みではなく、畳み込みとPixelShuffleレイヤ[62]を使って、機能をアップサンプリングしています。
訳抜け防止モード: さらに、畳み込み層とピクセルシャッフル層 [62 ] を用いる。 一般的に使われる畳み込みの代わりに 機能をアップサンプルする。
0.70
The sub-pixel convolution can alleviate the checkerboard artifacts in generated photos while reducing the number of parameters as well as computations [1]. サブピクセル畳み込みは、生成した写真中のチェッカーボードのアーティファクトを緩和し、パラメータの数と計算量を削減できる。 0.72
Discriminators We use the PatchGAN [35, 33] classifier 識別器 PatchGAN [35, 33] 分類器を使う 0.73
*This work was done as a part of internship at ByteDance. ※これはByteDanceのインターンシップの一環として行われた。 0.69
Figure 13: The architecture of our multi-class sketch-tophoto generator. 図13: マルチクラスのスケッチ・トフォトジェネレータのアーキテクチャ。 0.70
as the architecture for the two discriminators in our framework. フレームワークの2つの差別者のためのアーキテクチャです 0.65
It includes five convolutional layers and turns a 256× 256 input image into an output tensor of size 30× 30, where each value represents the prediction result for a 70×70 patch of the input image. 5つの畳み込み層を含み、256×256入力画像を30×30の出力テンソルに変換し、各値は入力画像の70×70パッチの予測結果を表す。 0.71
The final prediction output of the whole image is the average value of every patch. イメージ全体の最終的な予測出力は、パッチごとの平均値である。 0.82
Photo Classifier We adopt the architecture of HRNet [69] for photo classification and change its output size of the last fully-connected (FC) layer according to the number of classes in our training data. 写真の分類にはHRNet[69]のアーキテクチャを採用し、トレーニングデータのクラス数に応じて最終完全接続層(FC)の出力サイズを変更します。
訳抜け防止モード: 写真分類法 HRNet [69 ] のアーキテクチャを写真分類に適用する そして、トレーニングデータ内のクラス数に応じて、最後の完全連結(FC)層の出力サイズを変更します。
0.80
This network takes a 256× 256 このネットワークは256×256 0.77
14 7x7 conv, 3, 64, stride=1norm,Relu3x3 conv, 64, 128, stride=2norm, Relu3x3 conv, 128, 256, stride=2norm, ReluAdaINResidual Blockconv, AdaIN, Relu, conv, AdaIN3x3 conv, 256, 256, stride=13x3 conv, 256, 512, stride=1PixelShuffle(2), norm, Relu3x3 conv, 128, 256, stride=1PixelShuffle(2), norm, Relu7x7 conv, 64, 3, stride=1tanhInput size:(𝐵,3,𝐻,𝑊)Output size:(𝐵,128,𝐻/2,𝑊/2)Output size:(𝐵,64,𝐻,𝑊)Output size:(𝐵,256,𝐻/4,𝑊/4)Output size:(𝐵,256,𝐻/4,𝑊/4)Output size:(𝐵,128,𝐻/2,𝑊/2)Output size:(𝐵,64,𝐻,𝑊)Output size:(𝐵,3,𝐻,𝑊)×9Class label 14 7x7 conv, 3, 64, stride=1norm,Relu3x3 conv, 64, 128, stride=2norm, Relu3x3 conv, 128, 256, stride=2norm, ReluAdaINResidual Blockconv, AdaIN, Relu, conv, AdaIN3x3 conv, 256, 256, stride=13x3 conv, 256, 512, stride=1PixelShuffle(2), norm, Relu3x3 conv, 128, 256, stride=1PixelShuffle(2), norm, Relu7x7 conv, 64, 3, stride=1tanhInput size:(𝐵,3,𝐻,𝑊)Output size:(𝐵,128,𝐻/2,𝑊/2)Output size:(𝐵,64,𝐻,𝑊)Output size:(𝐵,256,𝐻/4,𝑊/4)Output size:(𝐵,256,𝐻/4,𝑊/4)Output size:(𝐵,128,𝐻/2,𝑊/2)Output size:(𝐵,64,𝐻,𝑊)Output size:(𝐵,3,𝐻,𝑊)×9Class label 0.83
英語(論文から抽出)日本語訳スコア
image as input and outputs an n-dim vector as the prediction result. 画像は入力として、n-dimベクトルを予測結果として出力する。 0.67
We choose the HRNet because of its superior performance in maintaining high-resolution representations through the whole process while fusing the multi-resolution information at different stages of the network. 我々は,ネットワークの異なる段階において,高解像度情報を融合しながら,プロセス全体を通して高解像度表現を維持する上で,優れた性能を有するHRNetを選択する。 0.64
B. More Sketch-to-Photo Results B。 Sketch-to-Photoのさらなる結果 0.62
Here we show more 256 × 256 sketch-to-photo results of our model in Figure 14, 15 and 16. ここでは、図14、15、16の256×256のスケッチ・ツー・フォトの結果を示す。 0.63
Previous sketch-tophoto synthesis works usually have output sizes = 64 × 64 or 128×128. 以前のスケッチ・トフォト合成作業は通常、出力サイズ = 64 × 64 または 18 × 128 である。 0.64
Leveraging the output size makes the problem even more challenging for two reasons: (1) the difficulty of correcting larger shape deformation, and (2) generating richer details and realistic textures for each image composition. 出力サイズを活用すれば,(1)大きな形状変形の修正が困難であること,(2)画像構成毎により詳細なテクスチャやリアルなテクスチャを生成すること,の2つの理由から,問題はさらに困難になる。 0.75
The results in the following pages suggest that AODA is able to synthesize 256 × 256 photo-realistic images. その結果,AODAは256×256光実写画像の合成が可能であることが示唆された。 0.68
In addition, Figure 17 shows the in-domain results obtained on the full dataset of Scribble [19] without removing any sketch. さらに、図17は、スケッチを削除することなく、scribble [19]の全データセットで得られたドメイン内結果を示しています。 0.68
Our network can not only handle the opendomain training problem, but also perform even better under a common multi-class sketch-to-photo generation setting. 私たちのネットワークはopendomainトレーニングの問題を処理できるだけでなく、共通のマルチクラススケッチから写真生成環境下でもパフォーマンスが向上しています。 0.64
15 15 0.85
英語(論文から抽出)日本語訳スコア
Figure 14: More 256 × 256 results on the SketchyCOCO dataset. 図14:sketchycocoデータセットの256×256以上の結果。 0.73
16 16 0.85
英語(論文から抽出)日本語訳スコア
Figure 15: More 256 × 256 results on the QMUL-Sketch dataset. 図15: qmul-sketchデータセットの256×256以上の結果。 0.77
17 17 0.85
英語(論文から抽出)日本語訳スコア
Figure 16: More 256 × 256 results on the Scribble dataset. 図16: scribbleデータセットの256×256以上の結果。 0.80
18 18 0.85
英語(論文から抽出)日本語訳スコア
Figure 17: In-domain 256 × 256 results on the Scribble dataset. 図17:in-domain 256 × 256scribbleデータセットの結果。 0.87
19 19 0.85
                                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。