論文の概要: Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain
- arxiv url: http://arxiv.org/abs/2106.07742v1
- Date: Mon, 14 Jun 2021 20:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 08:41:48.007062
- Title: Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain
- Title(参考訳): BERTはできるのか?
--考古学領域における情報検索のためのエンティティ認識
- Authors: Alex Brandsen, Suzan Verberne, Karsten Lambers, Milco Wansleeben
- Abstract要約: ArcheoBERTje はオランダの考古学文献で事前訓練されたBERTモデルである。
完全なコレクション上でのBERTモデルの語彙と出力の違いを分析する。
- 参考スコア(独自算出の注目度): 3.928604516640069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The amount of archaeological literature is growing rapidly. Until recently,
these data were only accessible through metadata search. We implemented a text
retrieval engine for a large archaeological text collection ($\sim 658$ Million
words). In archaeological IR, domain-specific entities such as locations, time
periods, and artefacts, play a central role. This motivated the development of
a named entity recognition (NER) model to annotate the full collection with
archaeological named entities. In this paper, we present ArcheoBERTje, a BERT
model pre-trained on Dutch archaeological texts. We compare the model's quality
and output on a Named Entity Recognition task to a generic multilingual model
and a generic Dutch model. We also investigate ensemble methods for combining
multiple BERT models, and combining the best BERT model with a domain thesaurus
using Conditional Random Fields (CRF). We find that ArcheoBERTje outperforms
both the multilingual and Dutch model significantly with a smaller standard
deviation between runs, reaching an average F1 score of 0.735. The model also
outperforms ensemble methods combining the three models. Combining ArcheoBERTje
predictions and explicit domain knowledge from the thesaurus did not increase
the F1 score. We quantitatively and qualitatively analyse the differences
between the vocabulary and output of the BERT models on the full collection and
provide some valuable insights in the effect of fine-tuning for specific
domains. Our results indicate that for a highly specific text domain such as
archaeology, further pre-training on domain-specific data increases the model's
quality on NER by a much larger margin than shown for other domains in the
literature, and that domain-specific pre-training makes the addition of domain
knowledge from a thesaurus unnecessary.
- Abstract(参考訳): 考古学文献の量は急速に増えている。
最近まで、これらのデータはメタデータ検索を通じてのみアクセス可能だった。
我々は、大規模な考古学的テキストコレクションのためのテキスト検索エンジンを実装した($\sim 658$ million words)。
考古学的IRでは、場所、期間、アーティファクトといったドメイン固有の実体が中心的な役割を果たす。
これは、完全なコレクションに考古学的な名前付きエンティティを注釈する名前付きエンティティ認識(ner)モデルの開発を動機付けた。
本稿では,オランダの考古学文献を事前学習した BERT モデルである ArcheoBERTje について述べる。
本稿では,名前付きエンティティ認識タスクにおけるモデルの品質と出力を,汎用多言語モデルと汎用オランダモデルと比較する。
また,複数のBERTモデルを組み合わせて,最適なBERTモデルとドメインシソーラスを条件付きランダム場(CRF)を用いて組み合わせるアンサンブル法についても検討した。
ArcheoBERTjeは、多言語モデルとオランダモデルの両方で、ラン間の標準偏差が小さく、平均F1スコアが0.735に達している。
このモデルは、3つのモデルを組み合わせたアンサンブルメソッドよりも優れています。
ArcheoBERTje予測とthesaurusからの明確なドメイン知識を組み合わせることで、F1スコアは向上しなかった。
我々は,BERTモデルの語彙と出力の違いを定量的に定性的に分析し,特定のドメインに対する微調整の効果について貴重な知見を提供する。
以上の結果から,考古学などの高度に特定のテキスト領域において,ドメイン固有データによる事前学習により,NER上のモデルの品質が,文献の他の領域よりもはるかに大きく向上すること,ドメイン固有事前学習がシソーラスからのドメイン知識の追加を不要にすること,などが示唆された。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - A Few-Shot Approach for Relation Extraction Domain Adaptation using Large Language Models [1.3927943269211591]
本稿では,大規模言語モデルの文脈内学習機能を活用してデータアノテーションを実行する実験を行う。
提案手法は,構造化プロンプトと最小限のエキスパートアノテーションを併用した数発の学習戦略を用いることで,科学的なKG生成モデルのドメイン適応を支援することができることを示す。
論文 参考訳(メタデータ) (2024-08-05T11:06:36Z) - A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - Adapting Knowledge for Few-shot Table-to-Text Generation [35.59842534346997]
AKG(Adapt-Knowledge-to-Generate)という新しいフレームワークを提案する。
AKGはラベルのないドメイン固有の知識をモデルに適応させ、少なくとも3つの利点をもたらす。
本モデルでは,人間の評価と自動評価により,流速,精度の両面において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations [20.00016240535205]
ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。
論文 参考訳(メタデータ) (2022-10-14T07:36:44Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。