論文の概要: Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting
- arxiv url: http://arxiv.org/abs/2103.13716v1
- Date: Thu, 25 Mar 2021 09:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 20:20:19.178804
- Title: Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting
- Title(参考訳): ベクトル化とラスタ化: スケッチと手書きのための自己監督学習
- Authors: Ayan Kumar Bhunia, Pinaki Nath Chowdhury, Yongxin Yang, Timothy M.
Hospedales, Tao Xiang, Yi-Zhe Song
- Abstract要約: 自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
- 参考スコア(独自算出の注目度): 168.91748514706995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has gained prominence due to its efficacy at
learning powerful representations from unlabelled data that achieve excellent
performance on many challenging downstream tasks. However supervision-free
pre-text tasks are challenging to design and usually modality specific.
Although there is a rich literature of self-supervised methods for either
spatial (such as images) or temporal data (sound or text) modalities, a common
pre-text task that benefits both modalities is largely missing. In this paper,
we are interested in defining a self-supervised pre-text task for sketches and
handwriting data. This data is uniquely characterised by its existence in dual
modalities of rasterized images and vector coordinate sequences. We address and
exploit this dual representation by proposing two novel cross-modal translation
pre-text tasks for self-supervised feature learning: Vectorization and
Rasterization. Vectorization learns to map image space to vector coordinates
and rasterization maps vector coordinates to image space. We show that the our
learned encoder modules benefit both raster-based and vector-based downstream
approaches to analysing hand-drawn data. Empirical evidence shows that our
novel pre-text tasks surpass existing single and multi-modal self-supervision
methods.
- Abstract(参考訳): 自己教師付き学習は、多くの困難な下流タスクにおいて優れたパフォーマンスを達成する未学習データから強力な表現を学習する効果により、注目を集めている。
しかし、監督不要のプレテキストタスクは設計が困難であり、通常はモダリティに特化している。
空間的(画像など)または時間的データ(音やテキスト)のモダリティについては、自己管理手法の豊富な文献があるが、両方のモダリティの恩恵を受ける共通のプレテキストタスクが欠落している。
本稿では、スケッチと手書きデータのための自己教師付き事前テキストタスクの定義に興味がある。
このデータはラスタ化画像とベクトル座標列の双対モダリティの存在によって一意的に特徴付けられる。
我々は,この二重表現を,自己教師付き特徴学習のための2つの新しいクロスモーダル翻訳プリテキストタスクであるベクトル化とラスタライズを提案することで解決し,活用する。
ベクトル化は画像空間をベクトル座標にマッピングすることを学び、ラスタ化はベクトル座標を画像空間にマッピングする。
学習したエンコーダモジュールはラスタベースとベクトルベースの両方の下流アプローチによる手書きデータの解析に有用であることを示す。
実験的な証拠は、我々の新しいプレテキストタスクが既存の単一およびマルチモーダルなセルフスーパービジョンメソッドを超えていることを示している。
関連論文リスト
- You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - SURDS: Self-Supervised Attention-guided Reconstruction and Dual Triplet
Loss for Writer Independent Offline Signature Verification [16.499360910037904]
オフライン署名検証(英: Offline Signature Verification、OSV)は、法学、商業、法学の様々な分野における基本的な生体計測の課題である。
著者に依存しないOSVにおける自己教師付き表現学習とメートル法学習を活用する2段階のディープラーニングフレームワークを提案する。
提案したフレームワークは2つのオフライン署名データセットで評価され、様々な最先端の手法と比較されている。
論文 参考訳(メタデータ) (2022-01-25T07:26:55Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Which way? Direction-Aware Attributed Graph Embedding [2.429993132301275]
グラフ埋め込みアルゴリズムは連続ベクトル空間内のグラフを効率的に表現するために用いられる。
しばしば見落とされがちな側面の1つは、グラフが向き付けられたかどうかである。
本研究は,DIAGRAMという,テキストに富んだ方向認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-30T13:08:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。