論文の概要: Robust and Efficient Writer-Independent IMU-Based Handwriting Recognition
- arxiv url: http://arxiv.org/abs/2502.20954v2
- Date: Thu, 10 Jul 2025 08:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:07.859319
- Title: Robust and Efficient Writer-Independent IMU-Based Handwriting Recognition
- Title(参考訳): 文字非依存IMUによる手書き文字認識のロバスト化
- Authors: Jindong Li, Tim Hamann, Jens Barth, Peter Kämpf, Dario Zanca, Björn Eskofier,
- Abstract要約: 慣性測定単位 (IMU) のデータを用いたオンライン手書き文字認識 (HWR) は, 書字スタイルのバリエーションのため, 依然として困難である。
それまでのアプローチは、目に見えない作家の筆跡に苦しむことが多く、作家に依存しない(WI)認識は極めて難しい問題である。
本稿では、CNNエンコーダとBiLSTMデコーダを用いて、IMUデータ上のWI HWRを改善するために設計されたHWRモデルを提案する。
- 参考スコア(独自算出の注目度): 2.022040536958726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online handwriting recognition (HWR) using data from inertial measurement units (IMUs) remains challenging due to variations in writing styles and the limited availability of annotated datasets. Previous approaches often struggle with handwriting from unseen writers, making writer-independent (WI) recognition a crucial yet difficult problem. This paper presents an HWR model designed to improve WI HWR on IMU data, using a CNN encoder and a BiLSTM-based decoder. Our approach demonstrates strong robustness to unseen handwriting styles, outperforming existing methods on the WI splits of both the public OnHW dataset and our word-based dataset, achieving character error rates (CERs) of 7.37\% and 9.44\%, and word error rates (WERs) of 15.12\% and 32.17\%, respectively. Robustness evaluation shows that our model maintains superior accuracy across different age groups, and knowledge learned from one group generalizes better to another. Evaluation on our sentence-based dataset further demonstrates its potential in recognizing full sentences. Through comprehensive ablation studies, we show that our design choices lead to a strong balance between performance and efficiency. These findings support the development of more adaptable and scalable HWR systems for real-world applications.
- Abstract(参考訳): 慣性測定単位(IMU)のデータを用いたオンライン手書き文字認識(HWR)は、書き込みスタイルのバリエーションと注釈付きデータセットの可用性の制限により、依然として困難である。
それまでのアプローチは、目に見えない作家の筆跡に苦しむことが多く、作家に依存しない(WI)認識は極めて難しい問題である。
本稿では、CNNエンコーダとBiLSTMデコーダを用いて、IMUデータ上のWI HWRを改善するために設計されたHWRモデルを提案する。
提案手法は,文字誤り率(CER)が7.37\%,9.44\%,単語誤り率(WER)が15.12\%,32.17\%であった。
ロバスト性評価は, 異なる年齢群において, モデルが優れた精度を維持していることを示す。
文に基づくデータセットの評価は、さらに全文を認識する可能性を示す。
包括的なアブレーション研究を通じて、我々の設計選択が性能と効率のバランスを強くすることを示した。
これらの知見は、現実のアプリケーションのためのより適応的でスケーラブルなHWRシステムの開発を支援する。
関連論文リスト
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Accurate Scene Text Recognition with Efficient Model Scaling and Cloze Self-Distillation [11.217033010884006]
我々はデコーダのスケーリングが、エンコーダのスケーリング単独で達成した以上の大きなパフォーマンス向上をもたらすことを示す。
また,ラベルノイズがシーンテキスト認識,特に実世界のデータにおいて重要な課題であることも確認した。
提案手法は,実データのみを用いて,11ベンチマーク中10ベンチマークにおいて,パラメータサイズと計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-20T14:35:46Z) - PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。
第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。
最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文 参考訳(メタデータ) (2025-02-10T05:50:26Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - Large Language Models for Page Stream Segmentation [0.03495246564946555]
ページストリーム(PSS)は、大規模に自動化されたドキュメント処理に必要な必須条件である。
本稿では,商用光文字認識(OCR)アノテーションを特徴とする拡張ベンチマークであるTABME++を紹介する。
我々は,パラメータ効率のよいデコーダモデルに着目し,大規模言語モデル(LLM)の性能評価を行った。
論文 参考訳(メタデータ) (2024-08-21T20:28:42Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Benchmarking Online Sequence-to-Sequence and Character-based Handwriting
Recognition from IMU-Enhanced Pens [2.840092825973023]
本稿では,リアルタイムシーケンス・ツー・シーケンス学習と単一文字認識のためのデータとベンチマークモデルを提案する。
データは、センサーによって強化されたボールペン、加速度計、磁力計、100Hzの力センサーによって記録される。
著者に依存したタスクの両方に対する方程式や単語を含む様々なデータセットを提案する。
論文 参考訳(メタデータ) (2022-02-14T20:55:33Z) - AttentionHTR: Handwritten Text Recognition Based on Attention
Encoder-Decoder Networks [0.0]
本研究は,手書き単語認識のための注目に基づくシーケンス・ツー・シーケンス・モデルを提案する。
シーンテキストイメージに事前トレーニングされたモデルを、手書き認識モデルのカスタマイズに向けた出発点として活用する。
提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットで実証的に評価されている。
論文 参考訳(メタデータ) (2022-01-23T22:48:36Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - MetaHTR: Towards Writer-Adaptive Handwritten Text Recognition [36.12001394921506]
我々は手書き文字認識の新しい手法を提案する。
新しいメタラーニングフレームワークを使い、新たなライターデータを利用する。
当社のフレームワークは、最先端のHTRモデルの上に簡単に実装できます。
論文 参考訳(メタデータ) (2021-04-05T12:35:39Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。