論文の概要: InkFM: A Foundational Model for Full-Page Online Handwritten Note Understanding
- arxiv url: http://arxiv.org/abs/2503.23081v1
- Date: Sat, 29 Mar 2025 13:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:42.819211
- Title: InkFM: A Foundational Model for Full-Page Online Handwritten Note Understanding
- Title(参考訳): InkFM: フルページオンライン手書きノート理解の基礎モデル
- Authors: Anastasiia Fadeeva, Vincent Coriou, Diego Antognini, Claudiu Musat, Andrii Maksai,
- Abstract要約: 本稿では,手書きコンテンツの全ページを解析するための基盤モデルInkFMを提案する。
28の異なるスクリプトでテキストを認識すること、数学的表現を認識すること、ページをテキストや描画のような異なる要素に分割すること。
- 参考スコア(独自算出の注目度): 10.065311465170382
- License:
- Abstract: Tablets and styluses are increasingly popular for taking notes. To optimize this experience and ensure a smooth and efficient workflow, it's important to develop methods for accurately interpreting and understanding the content of handwritten digital notes. We introduce a foundational model called InkFM for analyzing full pages of handwritten content. Trained on a diverse mixture of tasks, this model offers a unique combination of capabilities: recognizing text in 28 different scripts, mathematical expressions recognition, and segmenting pages into distinct elements like text and drawings. Our results demonstrate that these tasks can be effectively unified within a single model, achieving SoTA text line segmentation out-of-the-box quality surpassing public baselines like docTR. Fine- or LoRA-tuning our base model on public datasets further improves the quality of page segmentation, achieves state-of the art text recognition (DeepWriting, CASIA, SCUT, and Mathwriting datasets) and sketch classification (QuickDraw). This adaptability of InkFM provides a powerful starting point for developing applications with handwritten input.
- Abstract(参考訳): タブレットやスタイラスはメモを取るのにますます人気がある。
この体験を最適化し、スムーズで効率的なワークフローを確保するためには、手書きのデジタルノートの内容の正確な解釈と理解方法を開発することが重要である。
本稿では,手書きコンテンツの全ページを解析するための基盤モデルInkFMを提案する。
このモデルでは、28の異なるスクリプトでテキストを認識すること、数学的表現を認識すること、ページをテキストや描画などの異なる要素に分割することなど、ユニークな組み合わせが提供されている。
以上の結果から,これらのタスクは1つのモデルで効果的に統一できることが示され,docTRのような公開ベースラインを超え,SoTAテキスト行のセグメンテーションのアウト・ザ・ボックス品質を実現することができた。
公開データセットにベースモデルを微調整することは、ページセグメンテーションの品質をさらに向上させ、アートテキスト認識(DeepWriting、CASIA、SCUT、Mathwritingのデータセット)とスケッチ分類(QuickDraw)の状態を達成します。
InkFMのこの適応性は、手書き入力を持つアプリケーションを開発するための強力な出発点を提供する。
関連論文リスト
- Contrastive Masked Autoencoders for Character-Level Open-Set Writer Identification [25.996617568144675]
本稿では,文字レベルのオープンセット文字識別のためのCMAE(Contrastive Masked Auto-Encoders)を提案する。
我々は,Masked Auto-Encoders (MAE) とContrastive Learning (CL) を同時に組み合わせて,逐次情報を収集し,多様な手書きスタイルを区別する。
我々のモデルはCASIAオンライン手書きデータセットの最先端の結果を達成し、89.7%の精度で到達した。
論文 参考訳(メタデータ) (2025-01-21T05:15:10Z) - HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Representing Online Handwriting for Recognition in Large Vision-Language
Models [8.344510330567495]
本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。
この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-23T13:11:10Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Sampling and Ranking for Digital Ink Generation on a tight computational
budget [69.15275423815461]
トレーニングされたデジタルインク生成モデルの出力品質を最大化する方法について検討する。
我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。
論文 参考訳(メタデータ) (2023-06-02T09:55:15Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。