論文の概要: Handling Heavily Abbreviated Manuscripts: HTR engines vs text
normalisation approaches
- arxiv url: http://arxiv.org/abs/2107.03450v1
- Date: Wed, 7 Jul 2021 19:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 22:09:41.461772
- Title: Handling Heavily Abbreviated Manuscripts: HTR engines vs text
normalisation approaches
- Title(参考訳): Heavily Abbreviated Manuscripts: HTRエンジン対テキスト正規化アプローチ
- Authors: Jean-Baptiste Camps and Chahan Vidal-Gor\`ene and Marguerite Vernet
- Abstract要約: 省略形は、手書きテキスト認識や自然言語処理タスクなどの計算手法に特に課題を示す。
我々は、HTRエンジンを正規化(拡張、短縮)されたテキストで訓練することで、直接的に、そのような正規化されたテキストを得るための異なる設定を探索する。
ケーススタディは中世ラテン語の伝統に由来する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although abbreviations are fairly common in handwritten sources, particularly
in medieval and modern Western manuscripts, previous research dealing with
computational approaches to their expansion is scarce. Yet abbreviations
present particular challenges to computational approaches such as handwritten
text recognition and natural language processing tasks. Often, pre-processing
ultimately aims to lead from a digitised image of the source to a normalised
text, which includes expansion of the abbreviations. We explore different
setups to obtain such a normalised text, either directly, by training HTR
engines on normalised (i.e., expanded, disabbreviated) text, or by decomposing
the process into discrete steps, each making use of specialist models for
recognition, word segmentation and normalisation. The case studies considered
here are drawn from the medieval Latin tradition.
- Abstract(参考訳): 略語は手書きの資料、特に中世や近代西洋の写本でよく見られるが、その拡張に対する計算的アプローチに関する以前の研究は少ない。
しかし、略語は手書きのテキスト認識や自然言語処理タスクのような計算手法に特に挑戦している。
多くの場合、前処理は最終的にソースのデジタイズされた画像から正規化されたテキストへと導かれる。
このような正規化テキストを直接取得するために、正規化テキスト(例えば、拡張、非省略)テキストでhtrエンジンをトレーニングするか、プロセスを個別のステップに分解して、認識、単語分割、正規化の専門モデルを使用することで、異なる設定を探索する。
ここでのケーススタディは中世ラテン語の伝統に由来する。
関連論文リスト
- Historical German Text Normalization Using Type- and Token-Based Language Modeling [0.0]
本報告では, パラレルコーパスで訓練した1700-1900年頃のドイツ語文文の正規化システムを提案する。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
論文 参考訳(メタデータ) (2024-09-04T16:14:05Z) - Fine-grained Controllable Text Generation through In-context Learning with Feedback [57.396980277089135]
本稿では,依存度などの非自明な言語的特徴の特定の値に一致させるために,入力文を書き換える手法を提案する。
従来の研究とは対照的に、本手法は微調整ではなく文脈内学習を用いており、データが少ないユースケースに適用できる。
論文 参考訳(メタデータ) (2024-06-17T08:55:48Z) - Neural machine translation for automated feedback on children's
early-stage writing [3.0695550123017514]
本稿では,機械学習を用いた早期執筆のためのフィードバックの評価と構築の課題に対処する。
そこで本研究では,学生による「伝統的な」文章の翻訳にシーケンシャル・ツー・シーケンス・モデルを用いることを提案する。
論文 参考訳(メタデータ) (2023-11-15T21:32:44Z) - A Study of Augmentation Methods for Handwritten Stenography Recognition [0.0]
我々は22の古典的拡張技法について研究し、そのほとんどは他のスクリプトのHTRによく使われている。
我々は,例えばランダム回転,シフト,スケーリングの範囲を含む拡張群を同定し,ステントグラフィー認識の応用に有用である。
論文 参考訳(メタデータ) (2023-03-05T20:06:19Z) - Dealing with Abbreviations in the Slovenian Biographical Lexicon [2.0810096547938164]
省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。
そこで本研究では,テキスト中のドメイン固有省略量の高密度化に起因する問題に対処する手法を提案する。
論文 参考訳(メタデータ) (2022-11-04T13:09:02Z) - Context-Tuning: Learning Contextualized Prompts for Natural Language
Generation [52.835877179365525]
自然言語生成のための微調整PLMに対して,Context-Tuningと呼ばれる新しい連続的プロンプト手法を提案する。
まず、入力テキストに基づいてプロンプトを導出し、PLMから有用な知識を抽出して生成する。
第二に、生成したテキストの入力に対する関連性をさらに高めるために、連続的な逆プロンプトを用いて自然言語生成のプロセスを洗練する。
論文 参考訳(メタデータ) (2022-01-21T12:35:28Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Latin writing styles analysis with Machine Learning: New approach to old
questions [0.0]
中世のテキストは、世代から世代までのコミュニケーション手段を用いて、心から学び、普及した。
ラテン語で書かれた文学の特定の構成を考慮に入れれば、特定の物語テキストの親しみやすい情報源の確率パターンを探索し、示すことができる。
論文 参考訳(メタデータ) (2021-09-01T20:21:45Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。