論文の概要: FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context
- arxiv url: http://arxiv.org/abs/2203.02113v1
- Date: Fri, 4 Mar 2022 03:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 23:07:05.355551
- Title: FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context
- Title(参考訳): FS-COCO:コンテクストにおける共通オブジェクトのフリーハンドスケッチ理解に向けて
- Authors: Pinaki Nath Chowdhury and Aneeshan Sain and Yulia Gryaditskaya and
Ayan Kumar Bhunia and Tao Xiang and Yi-Zhe Song
- Abstract要約: フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
- 参考スコア(独自算出の注目度): 112.07988211268612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We advance sketch research to scenes with the first dataset of freehand scene
sketches, FS-COCO. With practical applications in mind, we collect sketches
that convey well scene content but can be sketched within a few minutes by a
person with any sketching skills. Our dataset comprises 10,000 freehand scene
vector sketches with per point space-time information by 100 non-expert
individuals, offering both object- and scene-level abstraction. Each sketch is
augmented with its text description. Using our dataset, we study for the first
time the problem of the fine-grained image retrieval from freehand scene
sketches and sketch captions. We draw insights on (i) Scene salience encoded in
sketches with strokes temporal order; (ii) The retrieval performance accuracy
from scene sketches against image captions; (iii) Complementarity of
information in sketches and image captions, as well as the potential benefit of
combining the two modalities. In addition, we propose new solutions enabled by
our dataset (i) We adopt meta-learning to show how the retrieval model can be
fine-tuned to a new user style given just a small set of sketches, (ii) We
extend a popular vector sketch LSTM-based encoder to handle sketches with
larger complexity than was supported by previous work. Namely, we propose a
hierarchical sketch decoder, which we leverage at a sketch-specific "pretext"
task. Our dataset enables for the first time research on freehand scene sketch
understanding and its practical applications.
- Abstract(参考訳): フリーハンドシーンスケッチの最初のデータセットFS-COCOを用いてスケッチ研究を進めた。
実践的な応用を念頭に置いて,シーン内容の充実したスケッチを収集するが,スケッチスキルのある人なら数分でスケッチできる。
本データセットは,100名の非専門家による1点当たりの空間時間情報付きフリーハンドシーンベクトルスケッチからなる。
各スケッチにはテキスト記述が付加される。
本研究では,このデータセットを用いて,フリーハンドシーンスケッチやスケッチキャプションからのきめ細かな画像検索の問題を初めて検討した。
私たちは洞察を引き出す
(i)ストロークの時間順のスケッチにエンコードされたシーンの敬礼
(ii)画像キャプションに対するシーンスケッチからの検索性能の精度
(iii)スケッチ及び画像キャプションにおける情報の相補性、及びこれら2つのモダリティを組み合わせる潜在的メリット
さらに、データセットで実現可能な新しいソリューションを提案する。
(i)メタラーニングを採用して,少数のスケッチのみを考慮し,検索モデルを新たなユーザスタイルに微調整する方法を示す。
(ii)従来よりも複雑なスケッチを扱うために,人気のあるベクタースケッチlstmベースのエンコーダを拡張した。
具体的には,スケッチ特有の"pretext"タスクで利用する階層型スケッチデコーダを提案する。
当社のデータセットは,フリーハンドシーンのスケッチ理解とその実用的応用を初めて研究できる。
関連論文リスト
- SketchTriplet: Self-Supervised Scenarized Sketch-Text-Image Triplet Generation [6.39528707908268]
シーンスケッチ用の大規模なペアデータセットは引き続き欠如している。
本稿では,既存のシーンスケッチに依存しないシーンスケッチ生成のための自己教師型手法を提案する。
シーンスケッチを中心にした大規模なデータセットをコントリビュートし、セマンティックに一貫した「テキスト・スケッチ・イメージ」三つ子を含む。
論文 参考訳(メタデータ) (2024-05-29T06:43:49Z) - Sketch Less Face Image Retrieval: A New Challenge [9.703239229149261]
完全な顔のスケッチを描くには、しばしばスキルと時間が必要です。
そこで本研究では,各ストロークで顔画像検索を行い,ストロークの少ない部分スケッチを用いて対象の顔写真を検索することを目的とした,スケッチ少ない顔画像検索(SLFIR)を提案する。
実験は、新しいフレームワークが部分的またはプール描画スケッチを使用して検索を終了できることを示している。
論文 参考訳(メタデータ) (2023-02-11T02:36:00Z) - Towards Practicality of Sketch-Based Visual Understanding [15.30818342202786]
スケッチは、先史時代から視覚的な物体を概念化し、描写するために用いられてきた。
この論文は、スケッチに基づく視覚的理解をより実践的に進めることを目的としている。
論文 参考訳(メタデータ) (2022-10-27T03:12:57Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - Multi-granularity Association Learning Framework for on-the-fly
Fine-Grained Sketch-based Image Retrieval [7.797006835701767]
きめ細かいスケッチベース画像検索(FG-SBIR)は、与えられたクエリスケッチで特定の写真を取得する問題に対処する。
本研究では,最小のストローク数で対象写真を検索することを目的とした(不完全スケッチ)。
非完全スケッチの埋め込み空間をさらに最適化する多粒性関連学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-13T14:38:50Z) - On Learning Semantic Representations for Million-Scale Free-Hand
Sketches [146.52892067335128]
百万のフリーハンドスケッチのための学習意味表現について研究する。
スケッチを表現するために,デュアルブランチCNNRNNネットワークアーキテクチャを提案する。
ハッシュ検索とゼロショット認識におけるスケッチ指向の意味表現の学習について検討する。
論文 参考訳(メタデータ) (2020-07-07T15:23:22Z) - Sketch-BERT: Learning Sketch Bidirectional Encoder Representation from
Transformers by Self-supervised Learning of Sketch Gestalt [125.17887147597567]
我々は、トランスフォーマー(Sketch-BERT)からのSketch BiBERT表現の学習モデルを提案する。
BERTをドメインのスケッチに一般化し、新しいコンポーネントと事前学習アルゴリズムを提案する。
Sketch-BERTの学習表現は,スケッチ認識,スケッチ検索,スケッチゲットといった下流タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-05-19T01:35:44Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z) - Deep Self-Supervised Representation Learning for Free-Hand Sketch [51.101565480583304]
フリーハンドスケッチにおける自己指導型表現学習の課題に対処する。
自己教師型学習パラダイムの成功の鍵は、スケッチ固有の設計にある。
提案手法は最先端の教師なし表現学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-03T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。