論文の概要: TrueType Transformer: Character and Font Style Recognition in Outline
Format
- arxiv url: http://arxiv.org/abs/2203.05338v2
- Date: Fri, 11 Mar 2022 02:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:31:54.573699
- Title: TrueType Transformer: Character and Font Style Recognition in Outline
Format
- Title(参考訳): TrueType Transformer:アウトラインフォーマットにおける文字とフォントスタイルの認識
- Authors: Yusuke Nagata, Jinki Otao, Daichi Haraguchi, and Seiichi Uchida
- Abstract要約: そこで我々はTrueType Transformer (T3)を提案する。
TrueTypeのようなアウトラインフォーマットは、各文字をストローク輪郭の制御点のシーケンスとして表現する。
本稿では,各制御点が分類結果にどう貢献するかを観察しながら,文字認識タスクとフォント認識タスクにおけるT3の適用性を実験的に示す。
- 参考スコア(独自算出の注目度): 7.664716161640757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose TrueType Transformer (T3), which can perform character and font
style recognition in an outline format. The outline format, such as TrueType,
represents each character as a sequence of control points of stroke contours
and is frequently used in born-digital documents. T3 is organized by a deep
neural network, so-called Transformer. Transformer is originally proposed for
sequential data, such as text, and therefore appropriate for handling the
outline data. In other words, T3 directly accepts the outline data without
converting it into a bitmap image. Consequently, T3 realizes a
resolution-independent classification. Moreover, since the locations of the
control points represent the fine and local structures of the font style, T3 is
suitable for font style classification, where such structures are very
important. In this paper, we experimentally show the applicability of T3 in
character and font style recognition tasks, while observing how the individual
control points contribute to classification results.
- Abstract(参考訳): 本稿では,アウトライン形式で文字およびフォントスタイル認識が可能なtruetype transformer(t3)を提案する。
TrueTypeのようなアウトラインフォーマットは、各文字をストローク輪郭の制御点のシーケンスとして表現し、生まれながらのデジタル文書で頻繁に使用される。
t3はディープニューラルネットワーク、いわゆるトランスフォーマーによって構成されている。
Transformerはもともとテキストなどの逐次データに対して提案されており、アウトラインデータを扱うのに適している。
言い換えれば、T3はビットマップ画像に変換することなくアウトラインデータを直接受け入れる。
その結果、T3は分解能に依存しない分類を実現する。
また、制御点の位置はフォントスタイルの微細かつ局所的な構造を表すため、t3はフォントスタイル分類に適しており、そのような構造は非常に重要である。
本稿では,各制御点が分類結果にどう貢献するかを観察しながら,文字認識タスクとフォント認識タスクにおけるT3の適用性を実験的に示す。
関連論文リスト
- Learning SO(3)-Invariant Semantic Correspondence via Local Shape Transform [62.27337227010514]
RISTと呼ばれる局所形状変換を用いた自己教師型回転不変3次元対応学習システムを提案する。
RISTは、挑戦的なクラス内変分と任意の向きの下でも、形状間の密接な対応を確立することを学ぶ。
RISTは、任意の回転点雲対に与えられる3D部分ラベル転送とセマンティックキーポイント転送の最先端性能を示す。
論文 参考訳(メタデータ) (2024-04-17T08:09:25Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Text Spotting Transformers [29.970268691631333]
TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
本稿では、Bezier曲線とアノテーションの両方において、テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導検出プロセス(ボックス・トゥ・ポリゴン)を設計する。
論文 参考訳(メタデータ) (2022-04-05T01:05:31Z) - Text2Mesh: Text-Driven Neural Stylization for Meshes [18.435567297462416]
筆者らのフレームワークText2Meshは,対象のテキストプロンプトに適合する色や局所的な幾何学的詳細を予測することにより,3Dメッシュをスタイリングする。
ニューラルネットワークと結合した固定メッシュ入力(コンテンツ)を用いた3次元物体の非交叉表現をニューラルネットワークと呼ぶ。
スタイルを変更するために、CLIPの表現力を利用してテキストプロンプト(記述スタイル)とスタイル化されたメッシュの類似度スコアを得る。
論文 参考訳(メタデータ) (2021-12-06T18:23:29Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z) - Contextual Transformer Networks for Visual Recognition [103.79062359677452]
視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
論文 参考訳(メタデータ) (2021-07-26T16:00:21Z) - Learning 3D Dense Correspondence via Canonical Point Autoencoder [108.20735652143787]
同一カテゴリの3次元形状間の密接な対応を予測できる標準点オートエンコーダ(CPAE)を提案する。
オートエンコーダは、2つの重要な機能を実行する: (a) 任意に順序付けられた点雲を標準プリミティブに符号化し、 (b) プリミティブを元の入力インスタンス形状に復号する。
論文 参考訳(メタデータ) (2021-07-10T15:54:48Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Cycle-Consistent Adversarial Autoencoders for Unsupervised Text Style
Transfer [37.402727594285224]
教師なしのテキストスタイルの転送は、並列データの欠如とコンテンツ保存の難しさにより、課題に満ちている。
本稿では,非並列データからトレーニングしたCycle-Consistent Adrial AutoEncoders (CAE) と呼ばれる,教師なしテキストスタイル転送のための新しいニューラルネットワークを提案する。
CAEは3つの必須コンポーネントで構成されている: LSTMオートエンコーダは、あるスタイルのテキストをその潜在表現にエンコードし、エンコードされた表現を元のテキストまたは変換された表現にデコードする。
論文 参考訳(メタデータ) (2020-10-02T00:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。