論文の概要: REE-HDSC: Recognizing Extracted Entities for the Historical Database
Suriname Curacao
- arxiv url: http://arxiv.org/abs/2401.02972v1
- Date: Tue, 19 Dec 2023 16:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:31:07.491068
- Title: REE-HDSC: Recognizing Extracted Entities for the Historical Database
Suriname Curacao
- Title(参考訳): REE-HDSC:Suriname Curacaoの歴史データベースにおける抽出エンティティの認識
- Authors: Erik Tjong Kim Sang
- Abstract要約: 6段階の処理パイプラインを記述し、キュラカオの市民登録簿から19世紀と20世紀の死亡証明書を処理してテストする。
パイプライン抽出の精度は高いが,人物名抽出の精度は低い。
- 参考スコア(独自算出の注目度): 0.081585306387285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe the project REE-HDSC and outline our efforts to improve the
quality of named entities extracted automatically from texts generated by
hand-written text recognition (HTR) software. We describe a six-step processing
pipeline and test it by processing 19th and 20th century death certificates
from the civil registry of Curacao. We find that the pipeline extracts dates
with high precision but that the precision of person name extraction is low.
Next we show how name precision extraction can be improved by retraining HTR
models with names, post-processing and by identifying and removing incorrect
names.
- Abstract(参考訳): 本プロジェクト REE-HDSC について述べるとともに,手書き文字認識(HTR)ソフトウェアで生成したテキストから自動的に抽出される名前付きエンティティの品質向上に向けた取り組みについて概説する。
6段階の処理パイプラインを記述し、キュラカオ市民登録簿から19世紀と20世紀の死亡証明書を処理してテストする。
パイプラインは日付を高精度に抽出するが,人物名抽出の精度は低いことが判明した。
次に、名前付きhtrモデルの再トレーニング、後処理、不正な名前の識別と削除により、名前精度の抽出方法を示す。
関連論文リスト
- REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - Efficient Title Reranker for Fast and Improved Knowledge-Intense NLP [6.407528220264765]
既存のリランカは、クエリと大量の長い検索されたテキストを繰り返しエンコードする必要がある。
本稿では,バニラ通過リランカ上で20x-40倍の高速化を実現するタイトルリグレードの新技術であるブロードキャスティングクエリ(Broadcasting Query)を用いて,効率的なタイトルリランカを提案する。
KILTナレッジベンチマークを用いて,実験した4つのデータセットすべてに対して,その有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-19T18:56:52Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Gradient Imitation Reinforcement Learning for General Low-Resource
Information Extraction [80.64518530825801]
本研究では,ラベル付きデータに対する勾配降下方向を模倣するために擬似ラベル付きデータを奨励するグラディエント強化学習法(GIRL)を開発した。
GIRLを利用して、低リソース設定ですべてのIEサブタスク(エンティティ認識、関係抽出、イベント抽出)を解決します。
論文 参考訳(メタデータ) (2022-11-11T05:37:19Z) - Extracting Targeted Training Data from ASR Models, and How to Mitigate
It [14.82033976002072]
ノイズマスキング(Noss Masking)は、訓練されたASRモデルからトレーニングデータのターゲット部分を抽出する、ブランク式フィリング方式の手法である。
11.8%の精度で、マスク付き訓練発話から正しい名前を抽出できることが示される。
また, テストセットから合成音声と部分的書き起こしを用いた場合においても, 精度が2.5%(名前の成功率47.7%)であることを示す。
論文 参考訳(メタデータ) (2022-04-18T14:43:17Z) - PSG: Prompt-based Sequence Generation for Acronym Extraction [26.896811663334162]
頭字語抽出タスクのためのPrompt-based Sequence Generation (PSG) 手法を提案する。
具体的には、抽出した頭字語テキストを自動回帰でプロンプトするテンプレートを設計する。
生成した回答の位置を抽出する位置抽出アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-29T02:14:38Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Abstractive Information Extraction from Scanned Invoices (AIESI) using
End-to-end Sequential Approach [0.0]
私たちは、Payee名、総数、住所など、データに興味を持っています。
抽出された情報は、データの完全な洞察を得るのに役立つ。高速なドキュメント検索、データベースの効率的なインデックス付け、データ分析などに役立つ。
本稿では,Word wise BiLSTMを用いて,請求書からすべての視覚的特徴とテキスト的特徴をアンサンブルし,重要な請求書パラメータを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-09-12T05:14:28Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。