論文の概要: A Study of Augmentation Methods for Handwritten Stenography Recognition
- arxiv url: http://arxiv.org/abs/2303.02761v1
- Date: Sun, 5 Mar 2023 20:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:58:53.557837
- Title: A Study of Augmentation Methods for Handwritten Stenography Recognition
- Title(参考訳): 手書きステングラフィ認識のための拡張法の検討
- Authors: Raphaela Heil, Eva Breznik
- Abstract要約: 我々は22の古典的拡張技法について研究し、そのほとんどは他のスクリプトのHTRによく使われている。
我々は,例えばランダム回転,シフト,スケーリングの範囲を含む拡張群を同定し,ステントグラフィー認識の応用に有用である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the factors limiting the performance of handwritten text recognition
(HTR) for stenography is the small amount of annotated training data. To
alleviate the problem of data scarcity, modern HTR methods often employ data
augmentation. However, due to specifics of the stenographic script, such
settings may not be directly applicable for stenography recognition. In this
work, we study 22 classical augmentation techniques, most of which are commonly
used for HTR of other scripts, such as Latin handwriting. Through extensive
experiments, we identify a group of augmentations, including for example
contained ranges of random rotation, shifts and scaling, that are beneficial to
the use case of stenography recognition. Furthermore, a number of augmentation
approaches, leading to a decrease in recognition performance, are identified.
Our results are supported by statistical hypothesis testing. Links to the
publicly available dataset and codebase are provided.
- Abstract(参考訳): stenographyにおける手書き文字認識(htr)の性能を制限する要因の1つは、少量のアノテートされたトレーニングデータである。
データ不足の問題を緩和するために、現代のhtr法は、しばしばデータ拡張を用いる。
しかし、ステントグラフィー文字の特異性のため、このような設定はステントグラフィー認識には直接適用できない可能性がある。
本研究では,22の古典的拡張技法について検討し,そのほとんどがラテン文字などの他のスクリプトのHTRによく使われている。
広範な実験により,例えばランダム回転,シフト,スケーリングの範囲を含む拡張群を同定し,ステントグラフィー認識の応用に有用である。
さらに、認識性能の低下につながるいくつかの拡張アプローチが同定される。
我々の結果は統計的仮説テストによって支えられている。
公開されているデータセットとコードベースへのリンクが提供されている。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Deep Learning-Driven Approach for Handwritten Chinese Character Classification [0.0]
手書き文字認識は、機械学習研究者にとって難しい問題である。
多数のユニークな文字クラスが存在するため、ロジカルスクリプトや中韓文字シーケンスのようなデータによっては、HCR問題に新たな複雑さをもたらす。
本稿では、モデルアーキテクチャ、データ前処理ステップ、設計手順のテストを導入し、詳細な文字画像分類のための高度にスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-30T15:29:32Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Handwritten Stenography Recognition and the LION Dataset [0.0]
Stenographic Domain Knowledgeは、4つの異なるエンコーディング手法を適用することで統合される。
テストエラー率は、ステントグラフィー固有のターゲットシーケンスエンコーディングと事前トレーニングと微調整を組み合わせることで大幅に低減される。
論文 参考訳(メタデータ) (2023-08-15T14:25:53Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Paraphrase Identification with Deep Learning: A Review of Datasets and Methods [1.4325734372991794]
一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
論文 参考訳(メタデータ) (2022-12-13T23:06:20Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。