論文の概要: A Transformer Based Handwriting Recognition System Jointly Using Online and Offline Features
- arxiv url: http://arxiv.org/abs/2506.20255v1
- Date: Wed, 25 Jun 2025 08:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.668499
- Title: A Transformer Based Handwriting Recognition System Jointly Using Online and Offline Features
- Title(参考訳): オンライン・オフライン機能を用いた変圧器による手書き文字認識システム
- Authors: Ayush Lodh, Ritabrata Chakraborty, Shivakumara Palaiahnakote, Umapada Pal,
- Abstract要約: オフライン画像とオンラインストロークデータの早期融合を行うエンド・ツー・エンド・ネットワークを提案する。
我々の手法は最先端の精度を達成し、過去のベストを最大1%上回っている。
- 参考スコア(独自算出の注目度): 8.419663258260671
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We posit that handwriting recognition benefits from complementary cues carried by the rasterized complex glyph and the pen's trajectory, yet most systems exploit only one modality. We introduce an end-to-end network that performs early fusion of offline images and online stroke data within a shared latent space. A patch encoder converts the grayscale crop into fixed-length visual tokens, while a lightweight transformer embeds the $(x, y, \text{pen})$ sequence. Learnable latent queries attend jointly to both token streams, yielding context-enhanced stroke embeddings that are pooled and decoded under a cross-entropy loss objective. Because integration occurs before any high-level classification, temporal cues reinforce each other during representation learning, producing stronger writer independence. Comprehensive experiments on IAMOn-DB and VNOn-DB demonstrate that our approach achieves state-of-the-art accuracy, exceeding previous bests by up to 1\%. Our study also shows adaptation of this pipeline with gesturification on the ISI-Air dataset. Our code can be found here.
- Abstract(参考訳): 我々は、手書き認識の利点として、ラスタ化複合グリフとペンの軌跡が持つ相補的な手がかりがあげられるが、ほとんどのシステムは1つのモダリティしか利用していないと仮定する。
オフライン画像とオンラインストロークデータの早期融合を行うエンド・ツー・エンドのネットワークを,共有潜在空間内に導入する。
パッチエンコーダはグレースケールの作物を固定長のビジュアルトークンに変換し、軽量のトランスフォーマーは$(x, y, \text{pen})$シーケンスを埋め込む。
学習可能な潜在クエリは、両方のトークンストリームに共同で参加し、コンテキスト強化されたストローク埋め込みを、クロスエントロピー損失目標の下でプールしてデコードする。
統合はハイレベルな分類の前に起こるため、時間的手がかりは表現学習において相互に強化され、作家の独立性が強くなる。
IAMOn-DB と VNOn-DB に関する総合的な実験は、我々の手法が最先端の精度を達成し、過去の最良値を最大 1 倍まで上回っていることを実証している。
また,ISI-Airデータセット上での卵化によるパイプラインの適応性についても検討した。
私たちのコードはここにある。
関連論文リスト
- The Cursive Transformer [0.6138671548064355]
ペンストロークオフセットを極座標に変換し、それらをビンに識別し、トークンのシーケンスに変換する新しいトークン化スキームを導入する。
わずか3500個の手書き文字と数個の単純なデータ拡張で、リアルなカーシブな手書きを生成するモデルを訓練することができます。
論文 参考訳(メタデータ) (2025-03-31T03:22:27Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - REGTR: End-to-end Point Cloud Correspondences with Transformers [79.52112840465558]
我々は、注意機構が明示的な特徴マッチングとRANSACの役割を置き換えることができると推測する。
本稿では,最終文集合を直接予測するエンドツーエンドフレームワークを提案する。
提案手法は3DMatchおよびModelNetベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T06:01:00Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。