論文の概要: Introducing a new high-resolution handwritten digits data set with
writer characteristics
- arxiv url: http://arxiv.org/abs/2011.07946v3
- Date: Wed, 13 Apr 2022 21:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:42:06.394676
- Title: Introducing a new high-resolution handwritten digits data set with
writer characteristics
- Title(参考訳): 書き手特性を持つ新しい高分解能手書き文字データの導入
- Authors: C\'edric Beaulac, Jeffrey S. Rosenthal
- Abstract要約: 収集した手書きの数字データセットを新たに導入する。
手書き文字の高精細な画像と様々な文字の特徴を含んでいる。
集められた複数のライターの特徴は、私たちのデータセットの斬新さであり、新しい研究機会を生み出します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The contributions in this article are two-fold. First, we introduce a new
hand-written digit data set that we collected. It contains high-resolution
images of hand-written The contributions in this article are two-fold. First,
we introduce a new handwritten digit data set that we collected. It contains
high-resolution images of handwritten digits together with various writer
characteristics which are not available in the well-known MNIST database. The
multiple writer characteristics gathered are a novelty of our data set and
create new research opportunities. The data set is publicly available online.
Second, we analyse this new data set. We begin with simple supervised tasks. We
assess the predictability of the writer characteristics gathered, the effect of
using some of those characteristics as predictors in classification task and
the effect of higher resolution images on classification accuracy. We also
explore semi-supervised applications; we can leverage the high quantity of
handwritten digits data sets already existing online to improve the accuracy of
various classifications task with noticeable success. Finally, we also
demonstrate the generative perspective offered by this new data set; we are
able to generate images that mimics the writing style of specific writers. The
data set has unique and distinct features and our analysis establishes
benchmarks and showcases some of the new opportunities made possible with this
new data set.
- Abstract(参考訳): この記事のコントリビューションは2つあります。
まず、収集した手書きの数字データセットを新たに導入する。
手書きの高解像度画像を含む この記事のコントリビューションは2つだ。
まず、収集した新しい手書きの数字データセットを紹介します。
これは手書き文字の高解像度画像と、よく知られたMNISTデータベースでは利用できない様々な文字の特徴を含んでいる。
収集された複数のライター特性は、データセットの新規性であり、新たな研究機会を生み出します。
データセットはオンラインで公開されている。
次に、この新しいデータセットを分析します。
まずは単純な教師付きタスクから始めます。
収集した文字特性の予測可能性,それらの特徴のいくつかを分類課題における予測要因として利用すること,高分解能画像が分類精度に与える影響を評価する。
オンライン上にすでに存在する手書き桁データセットを多量に活用して,様々な分類タスクの精度を向上し,顕著な成功を収めることができる。
最後に、この新たなデータセットが提供する生成的視点を実証し、特定の著者の執筆スタイルを模倣した画像を生成することができる。
データセットにはユニークな特徴があり、我々の分析はベンチマークを確立し、この新しいデータセットで実現可能な新しい機会をいくつか示す。
関連論文リスト
- BookWorm: A Dataset for Character Description and Analysis [59.186325346763184]
本稿では,短い事実プロファイルを生成する文字記述と,詳細な解釈を提供する文字解析という2つのタスクを定義する。
本稿では,Gutenbergプロジェクトからの書籍と,人間による記述と分析のペアリングを行うBookWormデータセットを紹介する。
その結果,検索に基づくアプローチは両タスクにおいて階層的アプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T10:55:58Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - NumHG: A Dataset for Number-Focused Headline Generation [28.57003500212883]
見出し生成(英: Headline generation)は、抽象的な要約において重要なタスクであり、全長の記事を簡潔で単行のテキストに凝縮しようと試みている。
我々はNumHGという新しいデータセットを導入し、27,000以上の注釈付き数字に富んだニュース記事を詳細な調査のために提供している。
我々は,従来の見出し生成タスクから,数値的精度,妥当性,可読性の観点から,人間の評価を用いて5つの優れたモデルを評価する。
論文 参考訳(メタデータ) (2023-09-04T09:03:53Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Sampling and Ranking for Digital Ink Generation on a tight computational
budget [69.15275423815461]
トレーニングされたデジタルインク生成モデルの出力品質を最大化する方法について検討する。
我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。
論文 参考訳(メタデータ) (2023-06-02T09:55:15Z) - How to Choose Pretrained Handwriting Recognition Models for Single
Writer Fine-Tuning [23.274139396706264]
近年のDeep Learning-based Handwriting Text Recognition (HTR) の進歩は、現代の写本や歴史文書に顕著な性能を持つモデルを生み出している。
これらのモデルは、言語、紙の支持、インク、著者の筆跡など、独特の特徴を持つ写本に適用した場合、同じパフォーマンスを得るのに苦労している。
本稿では,手書きテキスト生成モデルを用いて得られた,大規模で実際のベンチマークデータセットと合成データセットについて考察する。
我々は,5行の実際の微調整行数で,原稿を効果的に書き起こし可能なHTRモデルを得るための,そのようなデータの最も関連性の高い特徴を定量的に示す。
論文 参考訳(メタデータ) (2023-05-04T07:00:28Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Improving Accuracy and Explainability of Online Handwriting Recognition [0.9176056742068814]
我々は,OnHW-charsデータセット上で手書き認識モデルを開発し,先行モデルの精度を向上させる。
私たちの結果は公開リポジトリを通じて検証可能で再現可能です。
論文 参考訳(メタデータ) (2022-09-14T21:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。