論文の概要: FONTNET: On-Device Font Understanding and Prediction Pipeline
- arxiv url: http://arxiv.org/abs/2103.16150v1
- Date: Tue, 30 Mar 2021 08:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:10:28.579144
- Title: FONTNET: On-Device Font Understanding and Prediction Pipeline
- Title(参考訳): FONTNET: デバイス上のフォント理解と予測パイプライン
- Authors: Rakshith S, Rishabh Khurana, Vibhav Agarwal, Jayesh Rajkumar Vachhani,
Guggilla Bhanodai
- Abstract要約: フォント検出エンジンとフォント予測エンジンの2つのエンジンを提案する。
画像中のテキストのフォントスタイルを識別する新しいcnnアーキテクチャを開発した。
第2に、与えられたクエリフォントの類似フォントを予測するための新しいアルゴリズムを設計した。
第3に,インスタントメッセージングなどのリアルタイムアプリケーションにおいて,プライバシを確保し,レイテンシを改善するエンジンのオンデバイス全体を最適化し,デプロイしました。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fonts are one of the most basic and core design concepts. Numerous use cases
can benefit from an in depth understanding of Fonts such as Text Customization
which can change text in an image while maintaining the Font attributes like
style, color, size. Currently, Text recognition solutions can group recognized
text based on line breaks or paragraph breaks, if the Font attributes are known
multiple text blocks can be combined based on context in a meaningful manner.
In this paper, we propose two engines: Font Detection Engine, which identifies
the font style, color and size attributes of text in an image and a Font
Prediction Engine, which predicts similar fonts for a query font. Major
contributions of this paper are three-fold: First, we developed a novel CNN
architecture for identifying font style of text in images. Second, we designed
a novel algorithm for predicting similar fonts for a given query font. Third,
we have optimized and deployed the entire engine On-Device which ensures
privacy and improves latency in real time applications such as instant
messaging. We achieve a worst case On-Device inference time of 30ms and a model
size of 4.5MB for both the engines.
- Abstract(参考訳): フォントは最もベーシックで中核的なデザインコンセプトの1つです。
多くのユースケースは、スタイル、色、サイズといったフォント属性を維持しながら、画像内のテキストを変更することができるText Customizationのようなフォントの深い理解の恩恵を受けることができる。
現在、テキスト認識ソリューションは、認識されたテキストをラインブレークまたは段落ブレークに基づいてグループ化することができ、フォント属性が知られている場合、複数のテキストブロックを意味のある方法でコンテキストに基づいて結合することができる。
本稿では,画像中のテキストのフォントスタイル,色,大きさの属性を識別するフォント検出エンジンと,問合せフォントの類似フォントを予測するフォント予測エンジンの2つのエンジンを提案する。
まず、画像中のテキストのフォントスタイルを識別するための新しいcnnアーキテクチャを開発しました。
第2に、与えられたクエリフォントの類似フォントを予測するための新しいアルゴリズムを設計した。
第3に,インスタントメッセージングなどのリアルタイムアプリケーションにおいて,プライバシを確保し,レイテンシを改善するエンジンのオンデバイス全体を最適化し,デプロイしました。
両エンジンで30msのオンデバイス推論時間と4.5MBのモデルサイズを実現した。
関連論文リスト
- TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Combining OCR Models for Reading Early Modern Printed Books [2.839401411131008]
我々は,15世紀から18世紀にかけて印刷された書籍において,OCR上でのきめ細かいフォント認識の利用について検討した。
我々はOCRの性能がフォントスタイルに強く影響していることを示し、フォント群認識による微調整モデルの選択は結果に非常に良い影響を与えることを示した。
論文 参考訳(メタデータ) (2023-05-11T20:43:50Z) - CF-Font: Content Fusion for Few-shot Font Generation [63.79915037830131]
本稿では、コンテンツ特徴をベースフォントのコンテンツ特徴によって定義される線形空間に投影するコンテンツ融合モジュール(CFM)を提案する。
提案手法では,参照画像のスタイル表現ベクトルの最適化も可能である。
我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-03-24T14:18:40Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - AdaptiFont: Increasing Individuals' Reading Speed with a Generative Font
Model and Bayesian Optimization [3.480626767752489]
AdaptiFontは、モニターに表示されるテキストの読みやすさをインタラクティブに向上することを目的とした、ループ内の人間システムである。
我々は,能動的学習によって新しい真型フォントを生成し,新しいフォントでテキストをレンダリングし,個々のユーザの読書速度を測定する。
ユーザ調査の結果,この適応フォント生成システムは,高い読解速度に対応するフォント空間の領域を見出し,これらのフォントが参加者の読解速度を大幅に増加させ,各読者間でフォントが著しく異なることがわかった。
論文 参考訳(メタデータ) (2021-04-21T19:56:28Z) - Impressions2Font: Generating Fonts by Specifying Impressions [10.345810093530261]
本稿では,印象のあるフォント画像を生成するImpressions2Font(Imp2Font)を提案する。
Imp2Fontはフォント画像を生成する条件として任意の数の印象語を受け入れる。
論文 参考訳(メタデータ) (2021-03-18T06:10:26Z) - Few-shot Compositional Font Generation with Dual Memory [16.967987801167514]
我々は、新しいフォント生成フレームワークDual Memory-augmented Font Generation Network (DM-Font)を提案する。
我々は、構成性を活用するために、メモリコンポーネントとグローバルコンテキスト認識をジェネレータに採用する。
韓国手書きフォントとタイ手書きフォントの実験では,本手法が忠実なスタイリングによるサンプルの品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2020-05-21T08:13:40Z) - Attribute2Font: Creating Fonts You Want From Attributes [32.82714291856353]
Attribute2Fontは、属性値に基づいて条件付けられた任意の2つのフォント間でフォントスタイルの転送を実行するように訓練されている。
Attribute Attention Moduleと呼ばれる新しいユニットは、生成されたグリフ画像が顕著なフォント属性をより具体化するように設計されている。
論文 参考訳(メタデータ) (2020-05-16T04:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。