論文の概要: Learning Dense Correspondences between Photos and Sketches
- arxiv url: http://arxiv.org/abs/2307.12967v1
- Date: Mon, 24 Jul 2023 17:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 13:24:03.813427
- Title: Learning Dense Correspondences between Photos and Sketches
- Title(参考訳): 写真とスケッチ間の距離対応学習
- Authors: Xuanchen Lu, Xiaolong Wang, Judith E Fan
- Abstract要約: 人間は、スケッチと現実世界のオブジェクトの関連性を、たとえこれらのスケッチが現実的ではないとしても、しっかりと把握します。
我々は新しいスケッチ写真対応ベンチマークである$textitPSC6k$を導入し、125のオブジェクトカテゴリにわたる6250枚のスケッチ写真ペアの150Kアノテーションを含む。
次に,スケッチ・フォト・ペア間の密接な対応を学習するための自己教師付き手法を提案する。
- 参考スコア(独自算出の注目度): 6.2420740599184175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans effortlessly grasp the connection between sketches and real-world
objects, even when these sketches are far from realistic. Moreover, human
sketch understanding goes beyond categorization -- critically, it also entails
understanding how individual elements within a sketch correspond to parts of
the physical world it represents. What are the computational ingredients needed
to support this ability? Towards answering this question, we make two
contributions: first, we introduce a new sketch-photo correspondence benchmark,
$\textit{PSC6k}$, containing 150K annotations of 6250 sketch-photo pairs across
125 object categories, augmenting the existing Sketchy dataset with
fine-grained correspondence metadata. Second, we propose a self-supervised
method for learning dense correspondences between sketch-photo pairs, building
upon recent advances in correspondence learning for pairs of photos. Our model
uses a spatial transformer network to estimate the warp flow between latent
representations of a sketch and photo extracted by a contrastive learning-based
ConvNet backbone. We found that this approach outperformed several strong
baselines and produced predictions that were quantitatively consistent with
other warp-based methods. However, our benchmark also revealed systematic
differences between predictions of the suite of models we tested and those of
humans. Taken together, our work suggests a promising path towards developing
artificial systems that achieve more human-like understanding of visual images
at different levels of abstraction. Project page:
https://photo-sketch-correspondence.github.io
- Abstract(参考訳): 人間は、スケッチと現実世界のオブジェクトの関連性を、たとえこれらのスケッチが現実的ではないとしても、しっかりと把握します。
重要なのは、スケッチ内の個々の要素が、それが表現する物理的な世界の一部とどのように対応しているかを理解することです。
この能力を支えるのに必要な計算要素は何ですか。
まず、125のオブジェクトカテゴリにまたがる6250のスケッチ-写真ペアの150kアノテーションを含む、新しいスケッチ-写真対応ベンチマークである$\textit{psc6k}$を導入し、既存のsketchyデータセットに詳細な対応メタデータを追加します。
第2に,スケッチ・フォト・ペア間の密接な対応を学習するための自己教師型手法を提案する。
提案モデルでは,空間トランスフォーマーネットワークを用いて,スケッチの潜在表現とコントラスト学習ベースのConvNetバックボーンから抽出した写真のワープフローを推定する。
このアプローチはいくつかの強いベースラインより優れており、他のワープ法と定量的に一致した予測が得られた。
しかし、我々のベンチマークでは、テストしたモデル群と人間の予測の体系的な違いも明らかになった。
本研究は,抽象度の異なる視覚イメージをより人間らしく理解する人工システム開発に向けた,有望な道筋を示唆するものである。
プロジェクトページ: https://photo-sketch-correspondence.github.io
関連論文リスト
- Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings [99.9788496281408]
本研究では,スケッチを弱いラベルとして使用して,画像中の有能な物体を検出する方法について検討する。
これを実現するために,与えられた視覚写真に対応する逐次スケッチ座標を生成することを目的としたフォト・ツー・スケッチ生成モデルを提案する。
テストは、私たちの仮説を証明し、スケッチベースの唾液度検出モデルが、最先端技術と比較して、競争力のあるパフォーマンスを提供する方法を明確にします。
論文 参考訳(メタデータ) (2023-03-20T23:46:46Z) - Text-Guided Scene Sketch-to-Photo Synthesis [5.431298869139175]
テキストガイダンスを用いたシーンレベルのスケッチ・ツー・フォト合成手法を提案する。
モデルのトレーニングには,写真の集合から自己教師付き学習を用いる。
実験により,カラー画像から抽出されていないオリジナルスケッチ画像を視覚的品質の高い写真に変換することを確認した。
論文 参考訳(メタデータ) (2023-02-14T08:13:36Z) - Semantic-Aware Fine-Grained Correspondence [8.29030327276322]
本稿では,画像レベルの自己教師付き手法を用いて,セマンティック・アウェアのきめ細かな対応を学習する。
我々は,微粒な対応を特に狙う画素レベルの自己教師型学習目標を設計する。
本手法は,様々な視覚対応タスクにおける畳み込みネットワークを用いた従来の自己教師手法を超越した手法である。
論文 参考訳(メタデータ) (2022-07-21T12:51:41Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image
Retrieval [147.24102408745247]
我々は、これまで見過ごされてきたスケッチのさらなる特性、すなわち、詳細レベルの階層性について研究する。
本稿では,スケッチ固有の階層を育成し,それを利用して,対応する階層レベルでのスケッチと写真とのマッチングを行う新しいネットワークを設計する。
論文 参考訳(メタデータ) (2020-07-29T20:50:25Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - SketchDesc: Learning Local Sketch Descriptors for Multi-view
Correspondence [68.63311821718416]
我々はマルチビュースケッチ対応の問題について検討し、同じオブジェクトの異なるビューを持つ複数のフリーハンドスケッチを入力として扱う。
異なる視点における対応する点の視覚的特徴は、非常に異なる可能性があるため、この問題は困難である。
我々は、深層学習アプローチを採用し、データから新しいローカルスケッチ記述子を学習する。
論文 参考訳(メタデータ) (2020-01-16T11:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。