論文の概要: Noise-Aware Named Entity Recognition for Historical VET Documents
- arxiv url: http://arxiv.org/abs/2601.00488v1
- Date: Thu, 01 Jan 2026 21:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.474007
- Title: Noise-Aware Named Entity Recognition for Historical VET Documents
- Title(参考訳): 歴史的VET文書のノイズ認識によるエンティティ認識
- Authors: Alexander M. Esser, Jens Dörpinghaus,
- Abstract要約: ノイズ・アウェア・トレーニング(NAT)を利用した強靭なNER手法として,合成OCR誤差,伝達学習,多段階微調整を提案する。
提案手法は,VET文書における複数のエンティティタイプを初めて認識する手法の一つである。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses Named Entity Recognition (NER) in the domain of Vocational Education and Training (VET), focusing on historical, digitized documents that suffer from OCR-induced noise. We propose a robust NER approach leveraging Noise-Aware Training (NAT) with synthetically injected OCR errors, transfer learning, and multi-stage fine-tuning. Three complementary strategies, training on noisy, clean, and artificial data, are systematically compared. Our method is one of the first to recognize multiple entity types in VET documents. It is applied to German documents but transferable to arbitrary languages. Experimental results demonstrate that domain-specific and noise-aware fine-tuning substantially increases robustness and accuracy under noisy conditions. We provide publicly available code for reproducible noise-aware NER in domain-specific contexts.
- Abstract(参考訳): 本稿では,職業教育訓練(VET)分野における名前付きエンティティ認識(NER)について述べる。
ノイズ・アウェア・トレーニング(NAT)を利用した強靭なNER手法として,合成OCR誤差,伝達学習,多段階微調整を提案する。
ノイズ、クリーン、人工的なデータのトレーニングという3つの補完的戦略を体系的に比較する。
本手法は,VET文書における複数のエンティティタイプを初めて認識する手法の一つである。
これはドイツ語の文書に適用されるが、任意の言語に転送可能である。
実験結果から, 雑音条件下では, ドメイン固有かつノイズ対応の微調整によりロバスト性や精度が著しく向上することが示唆された。
我々は、ドメイン固有のコンテキストにおいて再現可能なノイズ認識NERのための公開コードを提供する。
関連論文リスト
- Learning to Retrieve with Weakened Labels: Robust Training under Label Noise [0.0]
ラベルノイズの存在下で頑健な検索モデルを生成するためのラベル弱化手法を検討する。
最初の結果から,ラベルの弱化は,10種類の最先端損失関数と比較して,検索タスクの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-12-15T11:52:13Z) - "I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities [59.22329574700317]
名前付きエンティティ認識(NER)は、名前付きエンティティを音声から識別することを目的としている。
しかし、新しい名前のエンティティが毎日現れ、Spoken NERデータに注釈をつけるのはコストがかかる。
そこで本稿では,NEDに基づく音声NERデータ生成手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T07:43:18Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Learning to Correct Noisy Labels for Fine-Grained Entity Typing via
Co-Prediction Prompt Tuning [9.885278527023532]
FETにおける雑音補正のためのコプレディション・プロンプト・チューニングを提案する。
ラベル付きラベルをリコールするために予測結果を統合し、区別されたマージンを用いて不正確なラベルを識別する。
広範に使われている3つのFETデータセットの実験結果から,我々のノイズ補正アプローチはトレーニングサンプルの品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-10-23T06:04:07Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。