論文の概要: Representing Online Handwriting for Recognition in Large Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2402.15307v1
- Date: Fri, 23 Feb 2024 13:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:30:40.014001
- Title: Representing Online Handwriting for Recognition in Large Vision-Language
Models
- Title(参考訳): 大規模視覚言語モデルにおける認識のためのオンライン手書き表現
- Authors: Anastasiia Fadeeva, Philippe Schlattner, Andrii Maksai, Mark Collier,
Efi Kokiopoulou, Jesse Berent, Claudiu Musat
- Abstract要約: 本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。
この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。
- 参考スコア(独自算出の注目度): 8.344510330567495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The adoption of tablets with touchscreens and styluses is increasing, and a
key feature is converting handwriting to text, enabling search, indexing, and
AI assistance. Meanwhile, vision-language models (VLMs) are now the go-to
solution for image understanding, thanks to both their state-of-the-art
performance across a variety of tasks and the simplicity of a unified approach
to training, fine-tuning, and inference. While VLMs obtain high performance on
image-based tasks, they perform poorly on handwriting recognition when applied
naively, i.e., by rendering handwriting as an image and performing optical
character recognition (OCR). In this paper, we study online handwriting
recognition with VLMs, going beyond naive OCR. We propose a novel tokenized
representation of digital ink (online handwriting) that includes both a
time-ordered sequence of strokes as text, and as image. We show that this
representation yields results comparable to or better than state-of-the-art
online handwriting recognizers. Wide applicability is shown through results
with two different VLM families, on multiple public datasets. Our approach can
be applied to off-the-shelf VLMs, does not require any changes in their
architecture, and can be used in both fine-tuning and parameter-efficient
tuning. We perform a detailed ablation study to identify the key elements of
the proposed representation.
- Abstract(参考訳): タッチスクリーンとスタイラスを備えたタブレットの採用が増加し、手書き文字をテキストに変換することで、検索、インデックス、AIアシストが実現されている。
一方、視覚言語モデル(VLM)は、様々なタスクにまたがる最先端のパフォーマンスと、トレーニング、微調整、推論に対する統一されたアプローチの単純さのおかげで、画像理解のためのゴーツーソリューションになった。
VLMは画像ベースのタスクで高いパフォーマンスを得るが、画像として手書きを描画し、光学文字認識(OCR)を行うなど、手書き文字認識では不適当である。
本稿では,VLMを用いたオンライン手書き文字認識について検討する。
本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。
この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。
複数のパブリックデータセット上で、2つの異なるVLMファミリーによる結果を通じて、広範な適用性を示す。
我々のアプローチは市販のVLMに適用でき、アーキテクチャの変更は一切必要とせず、微調整とパラメータ効率の両面で使用することができる。
提案する表現の重要な要素を特定するための詳細なアブレーション研究を行う。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - UIT-HWDB: Using Transferring Method to Construct A Novel Benchmark for
Evaluating Unconstrained Handwriting Image Recognition in Vietnamese [2.8360662552057323]
ベトナム語では、現代のラテン文字以外にアクセントと文字マークがあり、最新式の手書き認識法に混乱をもたらす。
低リソース言語として、ベトナムで手書き認識を研究するためのデータセットは少ない。
最近の研究は,ペンストローク座標を接続して構築したオンライン手書きデータセットの画像を用いてベトナムにおけるオフライン手書き認識手法の評価を行っている。
本稿では,オフライン手書き画像に必要な重要な自然属性を関連付ける手書き画像データセットを構築するための転送手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T08:23:54Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。