論文の概要: DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text
- arxiv url: http://arxiv.org/abs/2602.18089v1
- Date: Fri, 20 Feb 2026 09:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.278207
- Title: DohaScript: A Large-Scale Multi-Writer Dataset for Continuous Handwritten Hindi Text
- Title(参考訳): DohaScript: 継続的手書きHindiテキストのための大規模マルチライターデータセット
- Authors: Kunwar Arpit Singh, Ankush Prakash, Haroon R Lone,
- Abstract要約: 531名のコントリビュータから収集した手書きHindiテキストの大規模マルチライターデータセットであるDohaScriptを紹介した。
このデータセットは平行なスタイリスティックなコーパスとして設計されており、すべてのライターが6つの伝統的なヒンディー教のドーハ(カップレット)の同じ固定セットを転写する。
DohaScriptは、低リソースのスクリプト設定で連続手書きDevanagariテキストの研究を進めるための標準化され再現可能なベンチマークとして機能することを意図している。
- 参考スコア(独自算出の注目度): 1.299941371793082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite having hundreds of millions of speakers, handwritten Devanagari text remains severely underrepresented in publicly available benchmark datasets. Existing resources are limited in scale, focus primarily on isolated characters or short words, and lack controlled lexical content and writer level diversity, which restricts their utility for modern data driven handwriting analysis. As a result, they fail to capture the continuous, fused, and structurally complex nature of Devanagari handwriting, where characters are connected through a shared shirorekha (horizontal headline) and exhibit rich ligature formations. We introduce DohaScript, a large scale, multi writer dataset of handwritten Hindi text collected from 531 unique contributors. The dataset is designed as a parallel stylistic corpus, in which all writers transcribe the same fixed set of six traditional Hindi dohas (couplets). This controlled design enables systematic analysis of writer specific variation independent of linguistic content, and supports tasks such as handwriting recognition, writer identification, style analysis, and generative modeling. The dataset is accompanied by non identifiable demographic metadata, rigorous quality curation based on objective sharpness and resolution criteria, and page level layout difficulty annotations that facilitate stratified benchmarking. Baseline experiments demonstrate clear quality separation and strong generalization to unseen writers, highlighting the dataset's reliability and practical value. DohaScript is intended to serve as a standardized and reproducible benchmark for advancing research on continuous handwritten Devanagari text in low resource script settings.
- Abstract(参考訳): 数億のスピーカーがあるにも関わらず、手書きのDevanagariテキストは、公開されているベンチマークデータセットでは、非常に不足している。
既存のリソースは大規模に限られており、主に孤立した文字や短い単語に焦点が当てられている。
その結果、手書きの連続的、融合的、構造的に複雑な性質を捉えられず、文字は共有された白暦を通して結び付けられ、リッチなリグチュアな形態を呈する。
531名のコントリビュータから収集した手書きHindiテキストの大規模マルチライターデータセットであるDohaScriptを紹介した。
データセットは平行なスタイリスティックなコーパスとして設計されており、すべてのライターが6つの伝統的なヒンディー教のドーハ(カップレット)の固定セットを転写する。
この制御された設計は、言語コンテンツに依存しない書き手固有のバリエーションの体系的な分析を可能にし、手書き認識、書き手識別、スタイル分析、生成モデリングなどのタスクをサポートする。
データセットには、識別不能な統計メタデータ、客観的なシャープネスと解像度基準に基づく厳密な品質キュレーション、階層化されたベンチマークを容易にするページレベルのレイアウト困難アノテーションが付属している。
ベースライン実験は、明確な品質分離と、目に見えないライターへの強力な一般化を示し、データセットの信頼性と実用的価値を強調している。
DohaScriptは、低リソースのスクリプト設定で連続手書きDevanagariテキストの研究を進めるための標準化され再現可能なベンチマークとして機能することを意図している。
関連論文リスト
- PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。
第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。
最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文 参考訳(メタデータ) (2025-02-10T05:50:26Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。
データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文 参考訳(メタデータ) (2024-11-11T17:08:40Z) - MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification [19.021909090693505]
本稿では,スクリプト識別アルゴリズムのベンチマークのための新しいデータベースを提供する。
データセットは、地元の新聞や手書きの手紙からスキャンされた1,135件の文書と、異なるネイティブライターのメモで構成されている。
簡単なベンチマークは、手作りとディープラーニングの手法で提案されている。
論文 参考訳(メタデータ) (2024-05-29T09:29:09Z) - PART: Pre-trained Authorship Representation Transformer [52.623051272843426]
文書を書く著者は、自分のテキストに識別情報を印字する。
以前の作品では、手作りの機能や分類タスクを使って著者モデルを訓練していた。
セマンティクスの代わりにテキストの埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - CALText: Contextual Attention Localization for Offline Handwritten Text [1.066048003460524]
本稿では,Urduを文脈で読むことを学習するアテンションベースエンコーダデコーダモデルを提案する。
新たなローカライゼーションペナルティを導入し、モデルが次のキャラクタを認識するとき、一度に1つのロケーションにのみ出席するように促す。
我々はウルドゥー語とアラビア語の両方のデータセット上でモデルを評価し、文脈的アテンションのローカライゼーションが単純なアテンションと多方向LSTMモデルの両方より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-06T19:54:21Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。