論文の概要: Quantifying Character Similarity with Vision Transformers
- arxiv url: http://arxiv.org/abs/2305.14672v1
- Date: Wed, 24 May 2023 03:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:19:32.955577
- Title: Quantifying Character Similarity with Vision Transformers
- Title(参考訳): 視覚変換器による文字類似性の定量化
- Authors: Xinmei Yang and Abhishek Arora and Shao-Yu Jheng and Melissa Dell
- Abstract要約: 本研究は,OCR文書の文字置換コストを測定する手法を開発した。
視覚変換器(ViT)の大規模な自己教師型トレーニングと拡張デジタルフォントを採用している。
編集距離マッチングアルゴリズムにおいて、文字表現間の余剰距離を置換コストとして用いることにより、レコードリンクが大幅に改善される。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Record linkage is a bedrock of quantitative social science, as analyses often
require linking data from multiple, noisy sources. Off-the-shelf string
matching methods are widely used, as they are straightforward and cheap to
implement and scale. Not all character substitutions are equally probable, and
for some settings there are widely used handcrafted lists denoting which string
substitutions are more likely, that improve the accuracy of string matching.
However, such lists do not exist for many settings, skewing research with
linked datasets towards a few high-resource contexts that are not
representative of the diversity of human societies. This study develops an
extensible way to measure character substitution costs for OCR'ed documents, by
employing large-scale self-supervised training of vision transformers (ViT)
with augmented digital fonts. For each language written with the CJK script, we
contrastively learn a metric space where different augmentations of the same
character are represented nearby. In this space, homoglyphic characters - those
with similar appearance such as ``O'' and ``0'' - have similar vector
representations. Using the cosine distance between characters' representations
as the substitution cost in an edit distance matching algorithm significantly
improves record linkage compared to other widely used string matching methods,
as OCR errors tend to be homoglyphic in nature. Homoglyphs can plausibly
capture character visual similarity across any script, including low-resource
settings. We illustrate this by creating homoglyph sets for 3,000 year old
ancient Chinese characters, which are highly pictorial. Fascinatingly, a ViT is
able to capture relationships in how different abstract concepts were
conceptualized by ancient societies, that have been noted in the archaeological
literature.
- Abstract(参考訳): record linkageは定量的な社会科学の基盤であり、分析には複数のノイズ源からのデータをリンクする必要がある。
オフザシェルフ文字列マッチングメソッドは、実装とスケールが簡単で安価であるため、広く使用されている。
すべての文字置換が等しく可能であるわけではないし、ある設定ではどの文字列置換がよりありそうで、文字列マッチングの精度が向上するかを示す手作りのリストが広く使われている。
しかし、このようなリストは多くの設定には存在せず、人間社会の多様性を代表していない少数の高リソースコンテキストに対して、リンクされたデータセットを用いた研究を行う。
本研究は,拡張型デジタルフォントを用いた視覚変換器(ViT)の大規模自己教師型訓練を用いて,OCR文書の文字置換コストを測定する方法を開発した。
CJKスクリプトで書かれた各言語に対して、同じ文字の異なる拡張が近くで表現されるメトリック空間を対照的に学習する。
この空間において、ホモグリフィックな文字は、 ``o'' や ``0'' のような類似した外観を持つものと同じベクトル表現を持つ。
編集距離マッチングアルゴリズムにおいて文字表現間の余剰距離を置換コストとして用いることで、OCRエラーは本質的にホモグリフとなる傾向があるため、他の広く使われている文字列マッチング手法と比較してレコードリンクを著しく改善する。
ホモグリフは、低リソース設定を含む任意のスクリプトで、文字の視覚的類似性を推定することができる。
これは、3000年前の古代漢字のホモグリフ集合を作成することで説明される。
興味深いことに、ViTは古代の社会によってどのように異なる抽象概念が概念化されたかという関係を捉えることができる。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Linking Representations with Multimodal Contrastive Learning [1.6874375111244329]
歴史的記録リンクアプリケーションでは、文書は通常、光学文字認識(OCR)によってノイズに書き起こされる。
マルチモーダル学習を活用するために,CLIPPINGS(Linking Pooled Pre-trained Embeddings)を開発した。
論文 参考訳(メタデータ) (2023-04-07T03:39:08Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - CDistNet: Perceiving Multi-Domain Character Distance for Robust Text
Recognition [87.3894423816705]
本稿では,MDCDP (Multi-Domain Character Distance Perception) と呼ばれる新しいモジュールを提案する。
MDCDPは位置埋め込みを使用して、クロスアテンションメカニズムに従って視覚的特徴と意味的特徴の両方を問合せする。
我々は、複数のMDCDPを積み重ねたCDistNetを開発し、徐々に正確な距離モデリングをガイドする。
論文 参考訳(メタデータ) (2021-11-22T06:27:29Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot
Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。
微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。
提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文 参考訳(メタデータ) (2021-08-08T09:50:20Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - SpellGCN: Incorporating Phonological and Visual Similarities into
Language Models for Chinese Spelling Check [28.446849414110297]
中国語のスペルチェック(英語: Chinese Spelling Check, CSC)は、中国語のスペルエラーを検出し、訂正するタスクである。
既存の手法では、漢字間の類似性に関する知識を取り入れようと試みている。
本稿では,特殊グラフ畳み込みネットワーク(SpellGCN)を用いて,CSCの言語モデルに音韻的・視覚的類似性を取り入れることを提案する。
論文 参考訳(メタデータ) (2020-04-26T03:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。