論文の概要: Data Centric Domain Adaptation for Historical Text with OCR Errors
- arxiv url: http://arxiv.org/abs/2107.00927v1
- Date: Fri, 2 Jul 2021 09:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 23:34:22.331428
- Title: Data Centric Domain Adaptation for Historical Text with OCR Errors
- Title(参考訳): ocr誤りのある歴史的テキストに対するデータ中心領域適応
- Authors: Luisa M\"arz, Stefan Schweter, Nina Poerner, Benjamin Roth and Hinrich
Sch\"utze
- Abstract要約: オランダ語とフランス語の歴史的データに名前付きエンティティ認識の新しい手法を提案する。
クロスドメインの場合、コンテキスト化された文字列埋め込みを通じて教師なしのドメイン内データを統合することでドメインシフトに対処する。
任意の入力データにOCR誤差を模倣する一般的な手法を提案する。
- 参考スコア(独自算出の注目度): 5.784035806649778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose new methods for in-domain and cross-domain Named Entity
Recognition (NER) on historical data for Dutch and French. For the cross-domain
case, we address domain shift by integrating unsupervised in-domain data via
contextualized string embeddings; and OCR errors by injecting synthetic OCR
errors into the source domain and address data centric domain adaptation. We
propose a general approach to imitate OCR errors in arbitrary input data. Our
cross-domain as well as our in-domain results outperform several strong
baselines and establish state-of-the-art results. We publish preprocessed
versions of the French and Dutch Europeana NER corpora.
- Abstract(参考訳): オランダ語とフランス語の歴史的データに基づいて、ドメイン内およびドメイン間識別(NER)のための新しい手法を提案する。
クロスドメインの場合、コンテキスト化された文字列埋め込みを通じて教師なしのドメインデータを統合することでドメインシフトに対処し、OCRエラーをソースドメインに注入し、データ中心のドメイン適応に対処する。
任意の入力データにOCR誤差を模倣する一般的な手法を提案する。
私たちのクロスドメインとドメイン内の結果は、いくつかの強力なベースラインを上回り、最先端の結果を確立します。
私たちは、フランスとオランダのヨーロッパ・ナー・コーポラの事前処理版を公開します。
関連論文リスト
- MADI: Inter-domain Matching and Intra-domain Discrimination for
Cross-domain Speech Recognition [9.385527436874096]
教師なしドメイン適応(UDA)は、ラベルなしのターゲットドメインの性能を改善することを目的としている。
ドメイン間マッチングとドメイン内識別(MADI)を用いた新しいUDAアプローチを提案する。
MADIは、クロスデバイスとクロス環境ASRの相対単語誤り率(WER)をそれぞれ17.7%、22.8%削減する。
論文 参考訳(メタデータ) (2023-02-22T09:11:06Z) - Syntax-Guided Domain Adaptation for Aspect-based Sentiment Analysis [23.883810236153757]
ドメイン適応は、ドメイン間で共通の知識を伝達することによって、新しいドメインにおけるデータ不足問題を緩和するための一般的なソリューションである。
より効果的なクロスドメインABSAのための、SDAMと呼ばれる新しい構文誘導型ドメイン適応モデルを提案する。
我々のモデルは、クロスドメインEnd2EndABSAタスクのMicro-F1メトリックに関して、最先端のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-11-10T10:09:33Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Domain-Agnostic Prior for Transfer Semantic Segmentation [197.9378107222422]
教師なしドメイン適応(UDA)はコンピュータビジョンコミュニティにおいて重要なトピックである。
ドメインに依存しない事前学習(DAP)を用いてドメイン間表現学習を規則化する機構を提案する。
我々の研究は、UDAがより良いプロキシ、おそらく他のデータモダリティの恩恵を受けていることを明らかにしている。
論文 参考訳(メタデータ) (2022-04-06T09:13:25Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - CrossNER: Evaluating Cross-Domain Named Entity Recognition [47.9831214875796]
ドメイン間のエンティティ認識モデルは、ターゲットドメインにおけるNERサンプルの不足問題に対処することができる。
既存のNERベンチマークのほとんどはドメイン特化エンティティタイプを持たないか、特定のドメインにフォーカスしていないため、クロスドメイン評価の効率が低下する。
CrossNER(クロスドメインNERデータセット)は、5つの異なるドメインにまたがるNERデータのフルラベルコレクションで、異なるドメインのための専門エンティティカテゴリがあります。
論文 参考訳(メタデータ) (2020-12-08T11:31:55Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - Coupling Distant Annotation and Adversarial Training for Cross-Domain
Chinese Word Segmentation [40.27961925319402]
本論文は,中国語の単語セグメント化のための遠隔アノテーションと逆行訓練を併用することを提案する。
遠隔アノテーションのために、ターゲットドメインからの監視や事前定義された辞書を必要としない自動遠隔アノテーション機構を設計する。
逆行訓練では、音源領域情報の雑音低減と最大限の活用を行うための文レベルの訓練手法を開発する。
論文 参考訳(メタデータ) (2020-07-16T08:54:17Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。