論文の概要: Explainable YOLO-Based Dyslexia Detection in Synthetic Handwriting Data
- arxiv url: http://arxiv.org/abs/2501.15263v1
- Date: Sat, 25 Jan 2025 16:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:22.493438
- Title: Explainable YOLO-Based Dyslexia Detection in Synthetic Handwriting Data
- Title(参考訳): 合成手書きデータにおける説明可能なYOLOによるDyslexia検出
- Authors: Nora Fink,
- Abstract要約: 本研究は、YOLOに基づくオブジェクト検出の新たな応用として、手書き文字パターンの分離とラベル付けについて述べる。
個々の文字はまず収集され、32x32サンプルに前処理され、その後、現実的な筆跡をシミュレートするためにより大きな合成語に組み立てられる。
実証的には、精度、リコール、F1測定値が0.999を超えるほぼ完全な性能を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Dyslexia affects reading and writing skills across many languages. This work describes a new application of YOLO-based object detection to isolate and label handwriting patterns (Normal, Reversal, Corrected) within synthetic images that resemble real words. Individual letters are first collected, preprocessed into 32x32 samples, then assembled into larger synthetic 'words' to simulate realistic handwriting. Our YOLOv11 framework simultaneously localizes each letter and classifies it into one of three categories, reflecting key dyslexia traits. Empirically, we achieve near-perfect performance, with precision, recall, and F1 metrics typically exceeding 0.999. This surpasses earlier single-letter approaches that rely on conventional CNNs or transfer-learning classifiers (for example, MobileNet-based methods in Robaa et al. arXiv:2410.19821). Unlike simpler pipelines that consider each letter in isolation, our solution processes complete word images, resulting in more authentic representations of handwriting. Although relying on synthetic data raises concerns about domain gaps, these experiments highlight the promise of YOLO-based detection for faster and more interpretable dyslexia screening. Future work will expand to real-world handwriting, other languages, and deeper explainability methods to build confidence among educators, clinicians, and families.
- Abstract(参考訳): 失読症は多くの言語で読み書きのスキルに影響を与える。
本研究は, 実単語に類似した合成画像中の手書きパターン(Normal, Reversal, Corrected)を抽出し, ラベル付けするための, YOLOに基づくオブジェクト検出の新しい応用について述べる。
個々の文字はまず収集され、32x32サンプルに前処理され、その後、現実的な筆跡をシミュレートするためにより大きな合成語に組み立てられる。
我々のYOLOv11フレームワークは、各文字を同時にローカライズし、3つのカテゴリのうちの1つに分類します。
実証的には、精度、リコール、F1測定値が0.999を超えるほぼ完全な性能を実現している。
これは、従来のCNNやトランスファーラーニング分類器(例えば、Robaa et al arXiv:2410.19821のMobileNetベースのメソッド)に依存する、以前のシングルレターアプローチを超越している。
個々の文字を独立して考える単純なパイプラインとは異なり、私たちのソリューションは完全なワードイメージを処理し、より正確な手書き表現を生み出します。
合成データに依存すると、ドメインギャップに対する懸念が高まるが、これらの実験は、より高速で解釈可能なジプレキシアスクリーニングのためのYOLOベースの検出の可能性を浮き彫りにしている。
将来の作業は、現実世界の筆跡、他の言語、そして教育者、臨床医、家族の間で信頼を築くための深い説明可能性の方法にまで拡張される。
関連論文リスト
- Bukva: Russian Sign Language Alphabet [75.42794328290088]
本稿では,ロシア手話(RSL)ダクティルとしても知られる,ロシア語の指先文字の認識について検討する。
ダクティル (Dactyl) は手の動きが書かれた言語の個々の文字を表す手話の構成要素である。
当社は、RSLダクチル認識のための、最初の本格的なオープンソースビデオデータセットであるBakvaを提供している。
論文 参考訳(メタデータ) (2024-10-11T09:59:48Z) - YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection [5.42845980208244]
YOLO-Stutterは、時間的精度でディファレンシを検出する最初のエンドツーエンド手法である。
VCTK-StutterとVCTK-TTSは、繰り返し、ブロック、欠落、置換、延長といった自然な発声障害をシミュレートする。
論文 参考訳(メタデータ) (2024-08-27T11:31:12Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors [54.80516786370663]
FreeRealは、SDと実際のデータの相補的な強みを可能にする、実際のドメイン整合型事前トレーニングパラダイムである。
GlyphMixは、合成画像を落書きのようなユニットとして実際の画像に埋め込む。
FreeRealは、4つの公開データセットで、既存の事前トレーニングメソッドよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-12-08T15:10:55Z) - A Comparison of Lexicon-Based and ML-Based Sentiment Analysis: Are There
Outlier Words? [14.816706893177997]
本稿では、4つのドメインから抽出された15万以上の英語テキストに対する感情を計算する。
回帰モデルを用いて各ドメインの文書に対するアプローチ間の感情スコアの差をモデル化する。
以上の結果から,単語の重要性はドメインに依存しており,感情スコアの違いを系統的に引き起こす辞書項目が存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-11-10T18:21:50Z) - How word semantics and phonology affect handwriting of Alzheimer's
patients: a machine learning based analysis [20.36565712578267]
本研究は,アルツハイマー病患者の手書き書字に意味論と音韻論がどのような影響を及ぼすかを検討した。
我々は、6つの手書き作業から得られたデータを用いて、それぞれが以下のカテゴリの1つに属する単語をコピーする必要がある。
実験の結果,特徴選択により,単語の種類ごとに異なる特徴セットを導出できることがわかった。
論文 参考訳(メタデータ) (2023-07-06T13:35:06Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - Disentangling Homophemes in Lip Reading using Perplexity Analysis [10.262299768603894]
本稿では,ジェネレーティブ・プレトレーニング・トランスの新しい応用法を提案する。
ヴィセムの形で視覚音声を、単語や文の形で言語に変換する言語モデルとして機能する。
ネットワークは最適なパープレキシティを探索して、ビセメ・ツー・ワードマッピングを実行する。
論文 参考訳(メタデータ) (2020-11-28T12:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。