論文の概要: The Cursive Transformer
- arxiv url: http://arxiv.org/abs/2504.00051v1
- Date: Mon, 31 Mar 2025 03:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:53.678747
- Title: The Cursive Transformer
- Title(参考訳): カーシブ変圧器
- Authors: Sam Greydanus, Zachary Wimpee,
- Abstract要約: ペンストロークオフセットを極座標に変換し、それらをビンに識別し、トークンのシーケンスに変換する新しいトークン化スキームを導入する。
わずか3500個の手書き文字と数個の単純なデータ拡張で、リアルなカーシブな手書きを生成するモデルを訓練することができます。
- 参考スコア(独自算出の注目度): 0.6138671548064355
- License:
- Abstract: Transformers trained on tokenized text, audio, and images can generate high-quality autoregressive samples. But handwriting data, represented as sequences of pen coordinates, remains underexplored. We introduce a novel tokenization scheme that converts pen stroke offsets to polar coordinates, discretizes them into bins, and then turns them into sequences of tokens with which to train a standard GPT model. This allows us to capture complex stroke distributions without using any specialized architectures (eg. the mixture density network or the self-advancing ASCII attention head from Graves 2014). With just 3,500 handwritten words and a few simple data augmentations, we are able to train a model that can generate realistic cursive handwriting. Our approach is simpler and more performant than previous RNN-based methods.
- Abstract(参考訳): トークン化されたテキスト、オーディオ、イメージに基づいてトレーニングされたトランスフォーマーは、高品質な自己回帰サンプルを生成することができる。
しかし、ペン座標のシーケンスとして表される手書きデータはまだ探索されていない。
我々は、ペンストロークオフセットを極座標に変換し、それらをビンに識別し、標準的なGPTモデルをトレーニングするトークン列に変換する新しいトークン化方式を導入する。
これにより、特別なアーキテクチャ(例えばGraves 2014の混合密度ネットワークや自己改善型ASCIIアテンションヘッドなど)を使わずに複雑なストローク分布をキャプチャできる。
わずか3500個の手書き文字と数個の単純なデータ拡張で、リアルなカーシブな手書きを生成するモデルを訓練することができます。
我々の手法は従来のRNN方式よりもシンプルで高性能である。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Momentum Calibration for Text Generation [86.58432361938806]
テキスト生成のためのMoCa(bf Momentum bf Calibration)を提案する。
MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文 参考訳(メタデータ) (2022-12-08T13:12:10Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - Data Incubation -- Synthesizing Missing Data for Handwriting Recognition [16.62493361545184]
コンテンツとスタイルの制御を通じて、より優れた認識器を構築するために、生成モデルがどのように使用できるかを示す。
データ合成を最適化するためにこのフレームワークを使用し、実際のデータのみに基づいてトレーニングされたモデルに対して、手書き認識を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-10-13T21:28:18Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation [0.9542023122304099]
ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
論文 参考訳(メタデータ) (2020-03-23T21:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。