論文の概要: Synthesizing human-like sketches from natural images using a conditional
convolutional decoder
- arxiv url: http://arxiv.org/abs/2003.07101v1
- Date: Mon, 16 Mar 2020 10:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:32:08.078490
- Title: Synthesizing human-like sketches from natural images using a conditional
convolutional decoder
- Title(参考訳): 条件付き畳み込みデコーダを用いた自然画像からのヒト様スケッチの合成
- Authors: Moritz Kampelm\"uhler and Axel Pinz
- Abstract要約: 本研究では,自然画像中の物体の人間的なスケッチを合成できる,完全な畳み込み型エンドツーエンドアーキテクチャを提案する。
スケッチとイメージのペアのコレクション上で、エンドツーエンドの教師付きで構造をトレーニングします。
生成したアーキテクチャのスケッチを85.6%の精度で分類し,ユーザスタディを通じてその視覚的品質を検証する。
- 参考スコア(独自算出の注目度): 3.3504365823045035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are able to precisely communicate diverse concepts by employing
sketches, a highly reduced and abstract shape based representation of visual
content. We propose, for the first time, a fully convolutional end-to-end
architecture that is able to synthesize human-like sketches of objects in
natural images with potentially cluttered background. To enable an architecture
to learn this highly abstract mapping, we employ the following key components:
(1) a fully convolutional encoder-decoder structure, (2) a perceptual
similarity loss function operating in an abstract feature space and (3)
conditioning of the decoder on the label of the object that shall be sketched.
Given the combination of these architectural concepts, we can train our
structure in an end-to-end supervised fashion on a collection of sketch-image
pairs. The generated sketches of our architecture can be classified with 85.6%
Top-5 accuracy and we verify their visual quality via a user study. We find
that deep features as a perceptual similarity metric enable image translation
with large domain gaps and our findings further show that convolutional neural
networks trained on image classification tasks implicitly learn to encode shape
information. Code is available under
https://github.com/kampelmuehler/synthesizing_human_like_sketches
- Abstract(参考訳): 人間は、視覚コンテンツの非常に小さく抽象的な表現であるスケッチを使用することで、多様な概念を正確に伝達することができる。
自然画像中の物体の人間的なスケッチを,潜在的に散らばった背景で合成できる,完全な畳み込み型エンドツーエンドアーキテクチャを初めて提案する。
この高度に抽象的なマッピングをアーキテクチャが学べるようにするために、(1)完全畳み込みエンコーダ・デコーダ構造、(2)抽象的特徴空間で動作する知覚的類似性損失関数、(3)スケッチされる対象のラベル上のデコーダの条件付け、というキーコンポーネントを用いる。
これらのアーキテクチャの概念を組み合わせることで、スケッチとイメージのペアのコレクション上で、エンドツーエンドで構造をトレーニングすることができます。
生成したアーキテクチャのスケッチを85.6%の精度で分類し,ユーザスタディを通じてその視覚的品質を検証する。
知覚的類似度指標としての深い特徴により、大きな領域ギャップを持つ画像翻訳が可能となり、さらに画像分類タスクで訓練された畳み込みニューラルネットワークが暗黙的に形状情報をエンコードすることを学んでいることを示す。
コードはhttps://github.com/kampelmuehler/synthesizing_human_like_sketchesで入手できる。
関連論文リスト
- Disentangling Visual Priors: Unsupervised Learning of Scene Interpretations with Compositional Autoencoder [0.20718016474717196]
本稿では、ドメイン固有言語を用いて、画像形成の先駆的選択を捉えるニューロシンボリックアーキテクチャを提案する。
我々は、その言語でテンプレートプログラムを表現し、畳み込みニューラルネットワークによってシーンから抽出された特徴を用いてパラメータ化を学ぶ。
パラメータ化されたプログラムは、実行されると幾何学的プリミティブを生成し、シーンの内容に対応するようにレンダリングして評価する。
論文 参考訳(メタデータ) (2024-09-15T12:47:39Z) - Open Vocabulary Semantic Scene Sketch Understanding [5.638866331696071]
フリーハンドシーンスケッチの機械的理解における未探索だが基本的な視覚問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント上回り,FS-COCOスケッチデータセットの精度が85.5%に達した。
論文 参考訳(メタデータ) (2023-12-18T19:02:07Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Cross-Modal Fusion Distillation for Fine-Grained Sketch-Based Image
Retrieval [55.21569389894215]
本稿では,視覚変換器(XModalViT)のクロスアテンションフレームワークを提案する。
我々のフレームワークはまず、個々の写真からペア化されたデータポイントをマッピングし、両方のモダリティから情報を統一する融合表現にスケッチする。
次に、上記のモダリティ融合ネットワークの入力空間を、コントラストおよびリレーショナルなクロスモーダル知識蒸留により個々のモダリティの独立エンコーダに分離する。
論文 参考訳(メタデータ) (2022-10-19T11:50:14Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - Deep Generation of Face Images from Sketches [36.146494762987146]
ディープ・イメージ・ツー・イメージの翻訳技術により、フリーハンドスケッチから高速に顔画像を生成することができる。
既存のソリューションはスケッチに過度に適合する傾向にあり、プロのスケッチやエッジマップを入力として必要とします。
本稿では,画像の形状空間を暗黙的にモデル化し,この空間の顔画像を合成し,入力スケッチを近似する手法を提案する。
本手法は,入力スケッチをソフトな制約として使用することにより,粗いスケッチや不完全なスケッチであっても高品質な顔画像を生成することができる。
論文 参考訳(メタデータ) (2020-06-01T16:20:23Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。