論文の概要: Do Generalised Classifiers really work on Human Drawn Sketches?
- arxiv url: http://arxiv.org/abs/2407.03893v1
- Date: Thu, 4 Jul 2024 12:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:03:13.847049
- Title: Do Generalised Classifiers really work on Human Drawn Sketches?
- Title(参考訳): 一般化分類器は本当に人間のドロー・ケッチに効くのか?
- Authors: Hmrishav Bandyopadhyay, Pinaki Nath Chowdhury, Aneeshan Sain, Subhadeep Koley, Tao Xiang, Ayan Kumar Bhunia, Yi-Zhe Song,
- Abstract要約: 本稿では,人間のスケッチ理解を伴う大規模基礎モデルについて述べる。
一般的なスケッチ表現学習という観点からのパラダイムシフトです。
我々のフレームワークは、ゼロショットと少数ショットの両方で一般的なスケッチ表現学習アルゴリズムを超越している。
- 参考スコア(独自算出の注目度): 122.11670266648771
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper, for the first time, marries large foundation models with human sketch understanding. We demonstrate what this brings -- a paradigm shift in terms of generalised sketch representation learning (e.g., classification). This generalisation happens on two fronts: (i) generalisation across unknown categories (i.e., open-set), and (ii) generalisation traversing abstraction levels (i.e., good and bad sketches), both being timely challenges that remain unsolved in the sketch literature. Our design is intuitive and centred around transferring the already stellar generalisation ability of CLIP to benefit generalised learning for sketches. We first "condition" the vanilla CLIP model by learning sketch-specific prompts using a novel auxiliary head of raster to vector sketch conversion. This importantly makes CLIP "sketch-aware". We then make CLIP acute to the inherently different sketch abstraction levels. This is achieved by learning a codebook of abstraction-specific prompt biases, a weighted combination of which facilitates the representation of sketches across abstraction levels -- low abstract edge-maps, medium abstract sketches in TU-Berlin, and highly abstract doodles in QuickDraw. Our framework surpasses popular sketch representation learning algorithms in both zero-shot and few-shot setups and in novel settings across different abstraction boundaries.
- Abstract(参考訳): 本論文は,ヒトのスケッチ理解を伴う大規模基礎モデルを初めて紹介する。
一般的なスケッチ表現学習(例えば、分類)という観点からのパラダイムシフトです。
この一般化は2つの点で成り立つ。
(i)未知のカテゴリ(すなわち開集合)、及び
(II)抽象レベル(善と悪のスケッチ)を横断する一般化は、スケッチ文学において未解決のままのタイムリーな課題である。
私たちのデザインは直感的で、スケッチの一般化学習の恩恵を受けるためにCLIPの既に輝かしい一般化能力の伝達に重点を置いています。
我々はまず,ベクトルスケッチ変換のための新しいラスタの補助ヘッドを用いて,スケッチ固有のプロンプトを学習することで,バニラCLIPモデルを「条件」する。
これはCLIPを"sketch-aware"にする。
次に、CLIPを本質的に異なるスケッチ抽象化レベルに緊急にします。
これは抽象化固有のプロンプトバイアスのコードブックを学習することで実現される。これは抽象化レベルのスケッチの表現を容易にする重み付けの組み合わせで、低抽象エッジマップ、TU-Berlinの中間抽象スケッチ、QuickDrawの高抽象ダドルなどである。
我々のフレームワークは、ゼロショットと少数ショットの両方のセットアップと、異なる抽象境界をまたいだ新しい設定において、一般的なスケッチ表現学習アルゴリズムを超越している。
関連論文リスト
- Picture that Sketch: Photorealistic Image Generation from Abstract
Sketches [109.69076457732632]
この論文は、あなたや私のような訓練を受けていないアマチュアの抽象的で変形した普通のスケッチから、それをフォトリアリスティックなイメージに変えます。
まず、エッジマップのようなスケッチを指示するのではなく、抽象的なフリーハンドな人間のスケッチで作業することを目指しています。
そうすることで、スケッチから写真までのパイプラインを民主化し、スケッチがどれだけよいかに関わらず、スケッチを"写真化"します。
論文 参考訳(メタデータ) (2023-03-20T14:49:03Z) - CLIPascene: Scene Sketching with Different Types and Levels of
Abstraction [48.30702300230904]
本稿では,あるシーンイメージを異なるタイプと複数の抽象化レベルを用いてスケッチに変換する手法を提案する。
1つ目はスケッチの忠実さを考慮し、その表現をより正確に入力の描写からより緩やかな描写へと変化させる。
2つ目はスケッチの視覚的単純さによって定義され、詳細な描写からまばらなスケッチへと移行している。
論文 参考訳(メタデータ) (2022-11-30T18:54:32Z) - I Know What You Draw: Learning Grasp Detection Conditioned on a Few
Freehand Sketches [74.63313641583602]
そこで本研究では,スケッチ画像に関連のある潜在的な把握構成を生成する手法を提案する。
私たちのモデルは、現実世界のアプリケーションで簡単に実装できるエンドツーエンドで訓練され、テストされています。
論文 参考訳(メタデータ) (2022-05-09T04:23:36Z) - CLIPasso: Semantically-Aware Object Sketching [34.53644912236454]
本稿では,幾何学的および意味的単純化によって導かれる抽象レベルが異なるオブジェクトスケッチ手法を提案する。
スケッチをB'ezier曲線の集合として定義し、CLIPに基づく知覚的損失に対して曲線のパラメータを直接最適化するために微分器を使用する。
論文 参考訳(メタデータ) (2022-02-11T18:35:25Z) - Multi-granularity Association Learning Framework for on-the-fly
Fine-Grained Sketch-based Image Retrieval [7.797006835701767]
きめ細かいスケッチベース画像検索(FG-SBIR)は、与えられたクエリスケッチで特定の写真を取得する問題に対処する。
本研究では,最小のストローク数で対象写真を検索することを目的とした(不完全スケッチ)。
非完全スケッチの埋め込み空間をさらに最適化する多粒性関連学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-13T14:38:50Z) - Cross-Modal Hierarchical Modelling for Fine-Grained Sketch Based Image
Retrieval [147.24102408745247]
我々は、これまで見過ごされてきたスケッチのさらなる特性、すなわち、詳細レベルの階層性について研究する。
本稿では,スケッチ固有の階層を育成し,それを利用して,対応する階層レベルでのスケッチと写真とのマッチングを行う新しいネットワークを設計する。
論文 参考訳(メタデータ) (2020-07-29T20:50:25Z) - Sketch-BERT: Learning Sketch Bidirectional Encoder Representation from
Transformers by Self-supervised Learning of Sketch Gestalt [125.17887147597567]
我々は、トランスフォーマー(Sketch-BERT)からのSketch BiBERT表現の学習モデルを提案する。
BERTをドメインのスケッチに一般化し、新しいコンポーネントと事前学習アルゴリズムを提案する。
Sketch-BERTの学習表現は,スケッチ認識,スケッチ検索,スケッチゲットといった下流タスクの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-05-19T01:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。