論文の概要: Evaluating Synthetic Pre-Training for Handwriting Processing Tasks
- arxiv url: http://arxiv.org/abs/2304.01842v1
- Date: Tue, 4 Apr 2023 14:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:30:58.262096
- Title: Evaluating Synthetic Pre-Training for Handwriting Processing Tasks
- Title(参考訳): 手書き処理タスクにおける合成事前訓練の評価
- Authors: Vittorio Pippi, Silvia Cascianelli, Lorenzo Baraldi, Rita Cucchiara
- Abstract要約: いくつかの手書きフォントで描画された単語画像の大規模な合成データセットを構築した。
私たちはこれを、完全に教師された目的を持った単純な畳み込みニューラルネットワーク(ConvNet)のトレーニングに使用しています。
このような表現を、Writer Retrieval、Writer Identification、Writer Verification、Writer Classificationに活用する。
- 参考スコア(独自算出の注目度): 39.67579462930057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore massive pre-training on synthetic word images for
enhancing the performance on four benchmark downstream handwriting analysis
tasks. To this end, we build a large synthetic dataset of word images rendered
in several handwriting fonts, which offers a complete supervision signal. We
use it to train a simple convolutional neural network (ConvNet) with a fully
supervised objective. The vector representations of the images obtained from
the pre-trained ConvNet can then be considered as encodings of the handwriting
style. We exploit such representations for Writer Retrieval, Writer
Identification, Writer Verification, and Writer Classification and demonstrate
that our pre-training strategy allows extracting rich representations of the
writers' style that enable the aforementioned tasks with competitive results
with respect to task-specific State-of-the-Art approaches.
- Abstract(参考訳): 本稿では,4つのベンチマークダウンストリーム手書き解析タスクにおける性能向上のために,合成単語画像に対する大量の事前学習について検討する。
この目的のために,複数の手書きフォントで描画された単語画像の大規模な合成データセットを構築し,完全な監視信号を提供する。
私たちは、完全に教師付き目的を持った単純な畳み込みニューラルネットワーク(convnet)をトレーニングするためにそれを使用します。
事前訓練されたConvNetから得られた画像のベクトル表現は、手書きスタイルのエンコーディングとみなすことができる。
著者検索, 著者識別, 著者検証, 著者分類の表現を利用して, 我々の事前学習戦略は, 上記のタスクをタスク固有の状態-the-Artアプローチに関して競合的な結果で実現できるように, 著者のスタイルの豊かな表現を抽出することができることを実証する。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Attention based End to end network for Offline Writer Identification on Word level data [3.5829161769306244]
注意駆動型畳み込みニューラルネットワーク(CNN)に基づく著者識別システムを提案する。
このシステムは、単語画像から抽出された断片として知られる画像セグメントを利用して、ピラミッドベースの戦略を用いて訓練されている。
提案アルゴリズムの有効性を3つのベンチマークデータベースで評価した。
論文 参考訳(メタデータ) (2024-04-11T09:41:14Z) - Neural Machine Translation with Dynamic Graph Convolutional Decoder [32.462919670070654]
本稿では,グラフとシーケンス)構造入力から(グラフとシーケンス)出力への変換アーキテクチャを提案する。
我々は5つの広く知られている翻訳ベンチマークで広範な実験を行い、提案手法がベースラインや他の構文認識の変種よりも一貫した改善を実現することを検証した。
論文 参考訳(メタデータ) (2023-05-28T11:58:07Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。