論文の概要: OmniPrint: A Configurable Printed Character Synthesizer
- arxiv url: http://arxiv.org/abs/2201.06648v1
- Date: Mon, 17 Jan 2022 22:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:21:51.942745
- Title: OmniPrint: A Configurable Printed Character Synthesizer
- Title(参考訳): OmniPrint: 構成可能な印刷文字合成ツール
- Authors: Haozhe Sun and Wei-Wei Tu and Isabelle Guyon
- Abstract要約: 我々は孤立印刷文字の合成データ生成装置であるOmniPrintを紹介する。
MNIST、SVHN、Omniglotといったデータセットからインスピレーションを得ている。
27のスクリプトの935フォントと、多くの種類の歪みが含まれています。
- 参考スコア(独自算出の注目度): 30.647342871170405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OmniPrint, a synthetic data generator of isolated printed
characters, geared toward machine learning research. It draws inspiration from
famous datasets such as MNIST, SVHN and Omniglot, but offers the capability of
generating a wide variety of printed characters from various languages, fonts
and styles, with customized distortions. We include 935 fonts from 27 scripts
and many types of distortions. As a proof of concept, we show various use
cases, including an example of meta-learning dataset designed for the upcoming
MetaDL NeurIPS 2021 competition. OmniPrint is available at
https://github.com/SunHaozhe/OmniPrint.
- Abstract(参考訳): 我々は,機械学習研究を指向した,孤立した印刷文字の合成データ生成装置であるomniprintを紹介する。
mnist、svhn、omniglotといった有名なデータセットからインスピレーションを得ているが、様々な言語、フォント、スタイルから様々な印刷文字を生成し、カスタマイズされた歪みを持つ。
27のスクリプトから935のフォントと多くの種類の歪みが含まれています。
概念実証として,近日開催されるMetaDL NeurIPS 2021コンペティション用に設計されたメタラーニングデータセットの例を含む,さまざまなユースケースを示す。
OmniPrintはhttps://github.com/SunHaozhe/OmniPrintで入手できる。
関連論文リスト
- GRIF-DM: Generation of Rich Impression Fonts using Diffusion Models [18.15911470339845]
我々は、特定の印象を鮮明に具現化するフォントを生成するための拡散法である「usmethod」を導入する。
MyFontsデータセットを用いて,本手法が現実的で活気があり,高忠実なフォントを生成可能であることを確認した。
論文 参考訳(メタデータ) (2024-08-14T02:26:46Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Typography-MNIST (TMNIST): an MNIST-Style Image Dataset to Categorize
Glyphs and Font-Styles [0.0]
グリフリストには、記号集合を持つ現代および歴史的言語スクリプトの150以上の共通文字が含まれている。
このデータセットはCognitiveTypeプロジェクトの一部として開発されており、型から認識へのリアルタイムマッピングのためのアイトラッキングツールの開発を目指している。
論文 参考訳(メタデータ) (2022-02-12T21:01:39Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - TypeShift: A User Interface for Visualizing the Typing Production
Process [0.0]
TypeShiftは、生産をタイプするタイミングで言語パターンを視覚化するためのツールです。
単語レベルと文字レベルの両方で、タイピングパターンを表すために使用される頻繁に騒々しい情報信号を解明することを目的としています。
TypeShiftはもともとデータ入力用に設計されたものだが、音声データに容易に適応できる。
論文 参考訳(メタデータ) (2021-03-07T00:59:31Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。