論文の概要: A Stroke-Level Large-Scale Database of Chinese Character Handwriting and the OpenHandWrite_Toolbox for Handwriting Research
- arxiv url: http://arxiv.org/abs/2509.05335v1
- Date: Mon, 01 Sep 2025 07:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.437776
- Title: A Stroke-Level Large-Scale Database of Chinese Character Handwriting and the OpenHandWrite_Toolbox for Handwriting Research
- Title(参考訳): 漢字書字のストロークレベル大規模データベースと書字研究用OpenHandWrite_Toolbox
- Authors: Zebo Xu, Shaoyun Yu, Mark Torrance, Guido Nottbusch, Nan Zhao, Zhenguang Cai,
- Abstract要約: 1200文字毎の中国語話者42名を対象に,大規模な手書きデータベースを構築した。
複数の回帰結果から, 正書法予測器が文字レベル, 急進レベル, ストロークレベルの手書き作成および実行に影響を及ぼすことが示された。
以上の結果より, 急進的, 脳卒中レベルでの手書き準備と実行が言語学的要素と密接に絡み合っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 7.800836437038888
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding what linguistic components (e.g., phonological, semantic, and orthographic systems) modulate Chinese handwriting at the character, radical, and stroke levels remains an important yet understudied topic. Additionally, there is a lack of comprehensive tools for capturing and batch-processing fine-grained handwriting data. To address these issues, we constructed a large-scale handwriting database in which 42 Chinese speakers for each handwriting 1200 characters in a handwriting-to-dictation task. Additionally, we enhanced the existing handwriting package and provided comprehensive documentation for the upgraded OpenHandWrite_Toolbox, which can easily modify the experimental design, capture the stroke-level handwriting trajectory, and batch-process handwriting measurements (e.g., latency, duration, and pen-pressure). In analysing our large-scale database, multiple regression results show that orthographic predictors impact handwriting preparation and execution across character, radical, and stroke levels. Phonological factors also influence execution at all three levels. Importantly, these lexical effects demonstrate hierarchical attenuation - they were most pronounced at the character level, followed by the radical, and were weakest at the stroke levels. These findings demonstrate that handwriting preparation and execution at the radical and stroke levels are closely intertwined with linguistic components. This database and toolbox offer valuable resources for future psycholinguistic and neurolinguistic research on the handwriting of characters and sub-characters across different languages.
- Abstract(参考訳): 言語的構成要素(例えば、音韻学、意味論、正書法)が文字、急進的、ストロークレベルにおける中国語の筆跡をどう調節するかを理解することは、依然として重要かつ検討されているトピックである。
さらに、きめ細かい手書きデータを取得し、バッチ処理するための包括的なツールが欠如しています。
これらの問題に対処するため,42人の中国語話者が各字1200文字を手書き入力タスクで処理する大規模手書きデータベースを構築した。
さらに、既存の手書きパッケージを拡張し、OpenHandWrite_Toolboxをアップグレードして、実験的な設計を容易に変更し、ストロークレベルの手書きの軌跡を捉え、バッチ処理による手書きの計測(例えば、レイテンシ、持続時間、ペンプレッシャ)を行えるようにした。
大規模データベースの解析において,複数の回帰解析結果から,文字,急進的,ストロークレベルの手書き作成と実行に影響を与えることが示唆された。
音韻学的要因は、全ての3つのレベルにおける実行にも影響を及ぼす。
重要なことは、これらの語彙効果は階層的減衰を示しており、文字レベルでは最も発音され、急進的に続き、ストロークレベルでは最も弱かった。
以上の結果より, 急進的, 脳卒中レベルでの手書き準備と実行が言語学的要素と密接に絡み合っていることが明らかとなった。
このデータベースとツールボックスは、様々な言語にまたがる文字やサブ文字の書き起こしに関する将来の心理言語学および神経言語学の研究に貴重なリソースを提供する。
関連論文リスト
- Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - Skeleton and Font Generation Network for Zero-shot Chinese Character Generation [53.08596064763731]
そこで我々は,より堅牢な漢字フォント生成を実現するために,新しいSkeleton and Font Generation Network (SFGN)を提案する。
ミススペル文字について実験を行い、その大部分は共通文字とわずかに異なる。
提案手法は、生成した画像の有効性を視覚的に実証し、現在最先端のフォント生成方法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-14T12:15:49Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - MetaScript: Few-Shot Handwritten Chinese Content Generation via
Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。
本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文 参考訳(メタデータ) (2023-12-25T17:31:19Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - Kurdish Handwritten Character Recognition using Deep Learning Techniques [26.23274417985375]
本稿では、深層学習技術を用いてクルド語アルファベットの文字を認識可能なモデルの設計と開発を試みる。
4000万枚以上の画像を含む、手書きのクルド文字のための包括的なデータセットが作成された。
結果,精度は96%,トレーニング精度は97%であった。
論文 参考訳(メタデータ) (2022-10-18T16:48:28Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。