論文の概要: Normalized vs Diplomatic Annotation: A Case Study of Automatic Information Extraction from Handwritten Uruguayan Birth Certificates
- arxiv url: http://arxiv.org/abs/2507.08636v1
- Date: Fri, 11 Jul 2025 14:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.389029
- Title: Normalized vs Diplomatic Annotation: A Case Study of Automatic Information Extraction from Handwritten Uruguayan Birth Certificates
- Title(参考訳): 正規化と外交アノテーション:手書きウルグアイ出生証明書からの自動情報抽出を事例として
- Authors: Natalia Bottaioli, Solène Tarride, Jérémy Anger, Seginus Mowlavi, Marina Gardella, Antoine Tadros, Gabriele Facciolo, Rafael Grompone von Gioi, Christopher Kermorvant, Jean-Michel Morel, Javier Preciozzi,
- Abstract要約: 本研究は,ウルグアイの出生証明書からキー値情報を抽出するために,最近提案された文書注意ネットワーク(DAN)を評価した。
本稿では,手書き文書を自動的に書き起こすための2つのアノテーション戦略,トレーニングデータを最小限にした微調整DAN,アノテーションの取り組みについて検討する。
- 参考スコア(独自算出の注目度): 15.875868442088306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study evaluates the recently proposed Document Attention Network (DAN) for extracting key-value information from Uruguayan birth certificates, handwritten in Spanish. We investigate two annotation strategies for automatically transcribing handwritten documents, fine-tuning DAN with minimal training data and annotation effort. Experiments were conducted on two datasets containing the same images (201 scans of birth certificates written by more than 15 different writers) but with different annotation methods. Our findings indicate that normalized annotation is more effective for fields that can be standardized, such as dates and places of birth, whereas diplomatic annotation performs much better for fields containing names and surnames, which can not be standardized.
- Abstract(参考訳): 本研究は,ウルグアイの出生証明書からキー値情報を抽出するために,最近提案された文書注意ネットワーク(DAN)を評価した。
本稿では,手書き文書を自動的に書き起こすための2つのアノテーション戦略,トレーニングデータを最小限にした微調整DAN,アノテーションの取り組みについて検討する。
実験は、同じ画像を含む2つのデータセット(15以上の異なる著者によって書かれた出生証明書の201スキャン)で実施された。
その結果,標準アノテーションは,日付や生年月日など,標準化可能な分野において有効であるのに対し,外交アノテーションは,標準化できない名称や姓を含む分野においてより効果的であることが示唆された。
関連論文リスト
- Nuremberg Letterbooks: A Multi-Transcriptional Dataset of Early 15th Century Manuscripts for Document Analysis [4.660229623034816]
ニュルンベルク・レターブックス・データセットは15世紀初頭の史料である。
データセットには、1711のラベル付きページを含む4冊の書籍が含まれている。
論文 参考訳(メタデータ) (2024-11-11T17:08:40Z) - Different Tastes of Entities: Investigating Human Label Variation in
Named Entity Annotations [23.059491714512077]
本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
論文 参考訳(メタデータ) (2024-02-02T14:08:34Z) - Handwritten Text Recognition from Crowdsourced Annotations [0.1679937788852769]
複数の不完全あるいはノイズのある書き起こしが利用可能である場合に、手書きテキスト認識のためのモデルの訓練方法が異なることを考察する。
この実験は、1790年から1946年の間に書かれたベルフォート市(フランス)の自治体登録簿上で実施されている。
論文 参考訳(メタデータ) (2023-06-19T12:11:13Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - DocLangID: Improving Few-Shot Training to Identify the Language of
Historical Documents [7.535751594024775]
言語識別とは、文書中の文章の言語を認識するタスクを指す。
本稿では,未ラベルの歴史的文書の言語を識別するための移動学習手法であるDocLangIDを提案する。
論文 参考訳(メタデータ) (2023-05-03T15:45:30Z) - Improving Keyphrase Extraction with Data Augmentation and Information
Filtering [67.43025048639333]
キーフレーズ抽出はNLPにおける文書理解に不可欠なタスクの1つである。
本稿では,Behanceプラットフォーム上でストリームされたビデオからキーフレーズを抽出するための新しいコーパスと手法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:38:02Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Weakly- and Semi-supervised Evidence Extraction [107.47661281843232]
本稿では,エビデンス抽出の課題に対して,いくつかのエビデンスアノテーションと豊富な文書レベルラベルを組み合わせた新たな手法を提案する。
私たちのアプローチは、数百のエビデンスアノテーションでかなりの利益をもたらします。
論文 参考訳(メタデータ) (2020-11-03T04:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。