Fugu-MT 論文翻訳(概要): OmniPrint: A Configurable Printed Character Synthesizer

論文の概要: OmniPrint: A Configurable Printed Character Synthesizer

arxiv url: http://arxiv.org/abs/2201.06648v1
Date: Mon, 17 Jan 2022 22:31:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-19 14:21:51.942745
Title: OmniPrint: A Configurable Printed Character Synthesizer
Title（参考訳）: OmniPrint: 構成可能な印刷文字合成ツール
Authors: Haozhe Sun and Wei-Wei Tu and Isabelle Guyon
Abstract要約: 我々は孤立印刷文字の合成データ生成装置であるOmniPrintを紹介する。 MNIST、SVHN、Omniglotといったデータセットからインスピレーションを得ている。 27のスクリプトの935フォントと、多くの種類の歪みが含まれています。
参考スコア（独自算出の注目度）: 30.647342871170405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce OmniPrint, a synthetic data generator of isolated printed characters, geared toward machine learning research. It draws inspiration from famous datasets such as MNIST, SVHN and Omniglot, but offers the capability of generating a wide variety of printed characters from various languages, fonts and styles, with customized distortions. We include 935 fonts from 27 scripts and many types of distortions. As a proof of concept, we show various use cases, including an example of meta-learning dataset designed for the upcoming MetaDL NeurIPS 2021 competition. OmniPrint is available at https://github.com/SunHaozhe/OmniPrint.
Abstract（参考訳）: 我々は,機械学習研究を指向した,孤立した印刷文字の合成データ生成装置であるomniprintを紹介する。 mnist、svhn、omniglotといった有名なデータセットからインスピレーションを得ているが、様々な言語、フォント、スタイルから様々な印刷文字を生成し、カスタマイズされた歪みを持つ。 27のスクリプトから935のフォントと多くの種類の歪みが含まれています。概念実証として,近日開催されるMetaDL NeurIPS 2021コンペティション用に設計されたメタラーニングデータセットの例を含む,さまざまなユースケースを示す。 OmniPrintはhttps://github.com/SunHaozhe/OmniPrintで入手できる。

関連論文リスト

Scaling Rich Style-Prompted Text-to-Speech Datasets [49.1662517033426]
Paralinguistic Speech Captions (ParaSpeechCaps) は、リッチなスタイルのキャプションで音声を注釈する大規模データセットである。 ParaSpeechCapsは、話者レベルの固有のタグと発話レベルの状況タグを含む、59種類のタグをカバーしている。人間のラベル付きデータ342時間、自動注釈付きデータ2427時間で構成される。
論文参考訳（メタデータ） (2025-03-06T18:57:40Z)
Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation [79.71072337496351]
CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。高品質な命令チューニングデータを生成することができる。また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
論文参考訳（メタデータ） (2025-02-20T18:55:30Z)
One-Shot Multilingual Font Generation Via ViT [2.023301270280465]
フォントデザインは、中国語、日本語、韓国語といったログラフ言語に固有の課題をもたらす。本稿では,多言語フォント生成のためのビジョントランスフォーマー(ViT)ベースのモデルを提案する。
論文参考訳（メタデータ） (2024-12-15T23:52:35Z)
GRIF-DM: Generation of Rich Impression Fonts using Diffusion Models [18.15911470339845]
我々は、特定の印象を鮮明に具現化するフォントを生成するための拡散法である「usmethod」を導入する。 MyFontsデータセットを用いて,本手法が現実的で活気があり,高忠実なフォントを生成可能であることを確認した。
論文参考訳（メタデータ） (2024-08-14T02:26:46Z)
Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文参考訳（メタデータ） (2024-05-03T08:43:06Z)
Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文参考訳（メタデータ） (2024-04-09T08:08:03Z)
OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文参考訳（メタデータ） (2024-03-28T03:51:14Z)
SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文参考訳（メタデータ） (2022-02-23T12:13:27Z)
Typography-MNIST (TMNIST): an MNIST-Style Image Dataset to Categorize Glyphs and Font-Styles [0.0]
グリフリストには、記号集合を持つ現代および歴史的言語スクリプトの150以上の共通文字が含まれている。このデータセットはCognitiveTypeプロジェクトの一部として開発されており、型から認識へのリアルタイムマッピングのためのアイトラッキングツールの開発を目指している。
論文参考訳（メタデータ） (2022-02-12T21:01:39Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)
Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文参考訳（メタデータ） (2021-09-10T20:37:43Z)
TypeShift: A User Interface for Visualizing the Typing Production Process [0.0]
TypeShiftは、生産をタイプするタイミングで言語パターンを視覚化するためのツールです。単語レベルと文字レベルの両方で、タイピングパターンを表すために使用される頻繁に騒々しい情報信号を解明することを目的としています。 TypeShiftはもともとデータ入力用に設計されたものだが、音声データに容易に適応できる。
論文参考訳（メタデータ） (2021-03-07T00:59:31Z)
Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。文字が印刷されたときの画像を通して各文字の形状をエンコードする。我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文参考訳（メタデータ） (2020-10-20T04:08:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。