Fugu-MT 論文翻訳(概要): Training LayoutLM from Scratch for Efficient Named-Entity Recognition in the Insurance Domain

論文の概要: Training LayoutLM from Scratch for Efficient Named-Entity Recognition in the Insurance Domain

arxiv url: http://arxiv.org/abs/2412.09341v1
Date: Thu, 12 Dec 2024 15:09:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:56.989772
Title: Training LayoutLM from Scratch for Efficient Named-Entity Recognition in the Insurance Domain
Title（参考訳）: 保険ドメインにおける効率的な名前認識のためのスクラッチからのレイアウトLMの訓練
Authors: Benno Uthayasooriyar, Antoine Ly, Franck Vermet, Caio Corro,
Abstract要約: 一般的な事前訓練されたニューラルネットワークは、金融や保険といった専門分野において良い結果を出すのに苦労する可能性がある。これは、トレーニングデータと下流タスクのドメインミスマッチに起因する。保険関連財務文書の匿名化データセットを用いて、ドメイン関連文書を使用することで、匿名性認識問題の結果が向上することを示す。
参考スコア（独自算出の注目度）: 6.599755599064449
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Generic pre-trained neural networks may struggle to produce good results in specialized domains like finance and insurance. This is due to a domain mismatch between training data and downstream tasks, as in-domain data are often scarce due to privacy constraints. In this work, we compare different pre-training strategies for LayoutLM. We show that using domain-relevant documents improves results on a named-entity recognition (NER) problem using a novel dataset of anonymized insurance-related financial documents called Payslips. Moreover, we show that we can achieve competitive results using a smaller and faster model.
Abstract（参考訳）: 一般的な事前訓練されたニューラルネットワークは、金融や保険といった専門分野において良い結果を出すのに苦労する可能性がある。これは、トレーニングデータと下流タスクのドメインミスマッチに起因する。本研究では,LayoutLMの事前学習戦略を比較した。ドメイン関連文書を使用することで、匿名化された保険関連財務文書の新たなデータセットであるPayslipsを用いて、匿名性認識(NER)問題の結果が向上することを示す。さらに,より小型で高速なモデルを用いて,競争力のある結果が得られることを示す。

関連論文リスト

A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。 AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文参考訳（メタデータ） (2024-06-14T09:52:27Z)
Federated Unsupervised Domain Adaptation for Face Recognition [26.336693850812118]
顔認識のための非教師付きドメイン適応フェデレーションであるFedFRを提案する。対象領域におけるラベルなしデータに対しては,距離制約付きクラスタリングアルゴリズムを強化し,予測された擬似ラベルの品質を向上させる。また、フェデレート学習において、ソースドメイントレーニングを正規化するための新しいドメイン制約損失を提案する。
論文参考訳（メタデータ） (2022-04-09T04:02:03Z)
Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文参考訳（メタデータ） (2021-10-13T04:12:27Z)
Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。 2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-08-28T09:29:14Z)
Towards Unsupervised Domain Adaptation for Deep Face Recognition under Privacy Constraints via Federated Learning [33.33475702665153]
FedFR (Unsupervised Federated Face Recognition approach) を提案する。 fedfrは、フェデレーション学習を通じてソースドメインから知識を反復的に集約することで、ターゲットドメインのパフォーマンスを向上させる。ドメイン間の生データの代わりにモデルを転送することで、データプライバシーを保護します。
論文参考訳（メタデータ） (2021-05-17T04:24:25Z)
Contrastive Learning and Self-Training for Unsupervised Domain Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文参考訳（メタデータ） (2021-05-05T11:55:53Z)
Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文参考訳（メタデータ） (2021-04-02T12:53:15Z)
CrossNER: Evaluating Cross-Domain Named Entity Recognition [47.9831214875796]
ドメイン間のエンティティ認識モデルは、ターゲットドメインにおけるNERサンプルの不足問題に対処することができる。既存のNERベンチマークのほとんどはドメイン特化エンティティタイプを持たないか、特定のドメインにフォーカスしていないため、クロスドメイン評価の効率が低下する。 CrossNER(クロスドメインNERデータセット)は、5つの異なるドメインにまたがるNERデータのフルラベルコレクションで、異なるドメインのための専門エンティティカテゴリがあります。
論文参考訳（メタデータ） (2020-12-08T11:31:55Z)
CMT in TREC-COVID Round 2: Mitigating the Generalization Gaps from Web to Special Domain Search [89.48123965553098]
本稿では,特殊領域適応問題を緩和する探索システムを提案する。このシステムは、ドメイン適応型事前学習と数発の学習技術を利用して、ニューラルネットワークがドメインの不一致を軽減するのに役立つ。本システムでは,TREC-COVID タスクの第2ラウンドにおいて,非マニュアル実行において最善を尽くす。
論文参考訳（メタデータ） (2020-11-03T09:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。