論文の概要: Learning to Kern: Set-wise Estimation of Optimal Letter Space
- arxiv url: http://arxiv.org/abs/2402.14313v2
- Date: Sun, 28 Apr 2024 12:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 23:26:08.413452
- Title: Learning to Kern: Set-wise Estimation of Optimal Letter Space
- Title(参考訳): Kernへの学習: 最適文字空間のセットワイズ推定
- Authors: Kei Nakatsuru, Seiichi Uchida,
- Abstract要約: Kerningは、あるフォントの可能な全ての文字対に対して適切な水平空間を設定するタスクである。
ペアワイズモデルとセットワイズモデルという2つの機械学習モデルを提案することで、カーニングに取り組む。
- 参考スコア(独自算出の注目度): 6.622091932474424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kerning is the task of setting appropriate horizontal spaces for all possible letter pairs of a certain font. One of the difficulties of kerning is that the appropriate space differs for each letter pair. Therefore, for a total of 52 capital and small letters, we need to adjust $52 \times 52 = 2704$ different spaces. Another difficulty is that there is neither a general procedure nor criterion for automatic kerning; therefore, kerning is still done manually or with heuristics. In this paper, we tackle kerning by proposing two machine-learning models, called pairwise and set-wise models. The former is a simple deep neural network that estimates the letter space for two given letter images. In contrast, the latter is a transformer-based model that estimates the letter spaces for three or more given letter images. For example, the set-wise model simultaneously estimates 2704 spaces for 52 letter images for a certain font. Among the two models, the set-wise model is not only more efficient but also more accurate because its internal self-attention mechanism allows for more consistent kerning for all letters. Experimental results on about 2500 Google fonts and their quantitative and qualitative analyses show that the set-wise model has an average estimation error of only about 5.3 pixels when the average letter space of all fonts and letter pairs is about 115 pixels.
- Abstract(参考訳): Kerningは、あるフォントの可能な全ての文字対に対して適切な水平空間を設定するタスクである。
カーニングの難しさの1つは、各文字ペアごとに適切な空間が異なることである。
したがって、52大文字と小文字の合計に対して、52 = 2704$の異なる空間を52に調整する必要がある。
もうひとつの難点は、自動カーニングの一般的な手順や基準が存在しないことである。
本稿では,ペアワイドモデルとセットワイドモデルという2つの機械学習モデルを提案する。
前者は、与えられた2つの文字画像の文字空間を推定する単純なディープニューラルネットワークである。
対照的に後者は、3つ以上の与えられた文字画像の文字空間を推定するトランスフォーマーベースのモデルである。
例えば、セットワイズモデルは、あるフォントに対して52文字の画像に対して2704の空間を同時に推定する。
2つのモデルの中で、セットワイズモデルはより効率的であるだけでなく、より正確である。
約2500のGoogleフォントの実験結果と、その定量的および定性的分析により、すべてのフォントと文字ペアの平均文字空間が約115ピクセルである場合、セットワイドモデルの平均推定誤差は約5.3ピクセルであることが示された。
関連論文リスト
- Improving Long-Text Alignment for Text-to-Image Diffusion Models [50.91173337689504]
長文処理のためのセグメントレベル符号化手法を含むLongAlignを提案する。
選好最適化のために、我々はCLIPに基づく選好モデルを微調整拡散モデルに適用する。
テキスト非関連部が微調整時の共通オーバーフィッティング問題に寄与していることが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:46:31Z) - Khattat: Enhancing Readability and Concept Representation of Semantic Typography [0.3994968615706021]
セマンティックタイポグラフィーは、アイデアを選択し、適切なフォントを選択し、創造性と可読性のバランスをとる。
このプロセスを自動化するエンドツーエンドシステムを導入します。
鍵となる機能はOCRベースの損失関数で、読みやすさを高め、複数の文字の同時スタイリングを可能にする。
論文 参考訳(メタデータ) (2024-10-01T18:42:48Z) - ABHINAW: A method for Automatic Evaluation of Typography within AI-Generated Images [0.44241702149260337]
本稿では,AI生成画像中のテキストとタイポグラフィー生成の性能を明示的に定量化するために設計された新しい評価行列を提案する。
本手法では, 単語の繰り返し, ケース感度, 単語の混合, 文字の不規則な取り込みなど, 複数の冗長性に対処する。
論文 参考訳(メタデータ) (2024-09-18T11:04:35Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - EmpLite: A Lightweight Sequence Labeling Model for Emphasis Selection of
Short Texts [1.3192560874022086]
本論文では,短文の強調語検出を自動化する新しい手法を提案する。
私たちの知る限りでは、この研究は強調選択のスマートフォン展開のための最初の軽量深層学習アプローチを提示します。
論文 参考訳(メタデータ) (2020-12-15T19:00:44Z) - Spatially Aware Multimodal Transformers for TextVQA [61.01618988620582]
我々はTextVQAタスク、すなわち画像中のテキストを推論して質問に答えるタスクについて研究する。
既存のアプローチは空間関係の使用に限られている。
空間認識型自己注意層を提案する。
論文 参考訳(メタデータ) (2020-07-23T17:20:55Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z) - RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。
その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文 参考訳(メタデータ) (2020-04-03T12:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。