論文の概要: Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain
- arxiv url: http://arxiv.org/abs/2106.07742v1
- Date: Mon, 14 Jun 2021 20:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 08:41:48.007062
- Title: Can BERT Dig It? -- Named Entity Recognition for Information Retrieval
in the Archaeology Domain
- Title(参考訳): BERTはできるのか?
--考古学領域における情報検索のためのエンティティ認識
- Authors: Alex Brandsen, Suzan Verberne, Karsten Lambers, Milco Wansleeben
- Abstract要約: ArcheoBERTje はオランダの考古学文献で事前訓練されたBERTモデルである。
完全なコレクション上でのBERTモデルの語彙と出力の違いを分析する。
- 参考スコア(独自算出の注目度): 3.928604516640069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The amount of archaeological literature is growing rapidly. Until recently,
these data were only accessible through metadata search. We implemented a text
retrieval engine for a large archaeological text collection ($\sim 658$ Million
words). In archaeological IR, domain-specific entities such as locations, time
periods, and artefacts, play a central role. This motivated the development of
a named entity recognition (NER) model to annotate the full collection with
archaeological named entities. In this paper, we present ArcheoBERTje, a BERT
model pre-trained on Dutch archaeological texts. We compare the model's quality
and output on a Named Entity Recognition task to a generic multilingual model
and a generic Dutch model. We also investigate ensemble methods for combining
multiple BERT models, and combining the best BERT model with a domain thesaurus
using Conditional Random Fields (CRF). We find that ArcheoBERTje outperforms
both the multilingual and Dutch model significantly with a smaller standard
deviation between runs, reaching an average F1 score of 0.735. The model also
outperforms ensemble methods combining the three models. Combining ArcheoBERTje
predictions and explicit domain knowledge from the thesaurus did not increase
the F1 score. We quantitatively and qualitatively analyse the differences
between the vocabulary and output of the BERT models on the full collection and
provide some valuable insights in the effect of fine-tuning for specific
domains. Our results indicate that for a highly specific text domain such as
archaeology, further pre-training on domain-specific data increases the model's
quality on NER by a much larger margin than shown for other domains in the
literature, and that domain-specific pre-training makes the addition of domain
knowledge from a thesaurus unnecessary.
- Abstract(参考訳): 考古学文献の量は急速に増えている。
最近まで、これらのデータはメタデータ検索を通じてのみアクセス可能だった。
我々は、大規模な考古学的テキストコレクションのためのテキスト検索エンジンを実装した($\sim 658$ million words)。
考古学的IRでは、場所、期間、アーティファクトといったドメイン固有の実体が中心的な役割を果たす。
これは、完全なコレクションに考古学的な名前付きエンティティを注釈する名前付きエンティティ認識(ner)モデルの開発を動機付けた。
本稿では,オランダの考古学文献を事前学習した BERT モデルである ArcheoBERTje について述べる。
本稿では,名前付きエンティティ認識タスクにおけるモデルの品質と出力を,汎用多言語モデルと汎用オランダモデルと比較する。
また,複数のBERTモデルを組み合わせて,最適なBERTモデルとドメインシソーラスを条件付きランダム場(CRF)を用いて組み合わせるアンサンブル法についても検討した。
ArcheoBERTjeは、多言語モデルとオランダモデルの両方で、ラン間の標準偏差が小さく、平均F1スコアが0.735に達している。
このモデルは、3つのモデルを組み合わせたアンサンブルメソッドよりも優れています。
ArcheoBERTje予測とthesaurusからの明確なドメイン知識を組み合わせることで、F1スコアは向上しなかった。
我々は,BERTモデルの語彙と出力の違いを定量的に定性的に分析し,特定のドメインに対する微調整の効果について貴重な知見を提供する。
以上の結果から,考古学などの高度に特定のテキスト領域において,ドメイン固有データによる事前学習により,NER上のモデルの品質が,文献の他の領域よりもはるかに大きく向上すること,ドメイン固有事前学習がシソーラスからのドメイン知識の追加を不要にすること,などが示唆された。
関連論文リスト
- NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - Adapting Prompt for Few-shot Table-to-Text Generation [24.440701406542928]
AdaPTGen(Adapt-Prompt-to-Generate)という新しいフレームワークを提案する。
ドメイン固有の知識のプロンプトテンプレートをモデルに適応させる。
我々のモデルは流速と精度の両面で優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-02-24T05:48:53Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations [20.00016240535205]
ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。
論文 参考訳(メタデータ) (2022-10-14T07:36:44Z) - Improving Retrieval Augmented Neural Machine Translation by Controlling
Source and Fuzzy-Match Interactions [15.845071122977158]
本稿では,トップkのドメイン内ファジィマッチングが元文に現れるRAT(Retrieval Augmented Translation)のアイデアに基づいて構築する。
本稿では,ソース文とトップkファジィなターゲット言語マッチング間のインタラクションを制御する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-10T23:33:15Z) - General-to-Specific Transfer Labeling for Domain Adaptable Keyphrase
Generation [30.167332489528608]
トレーニングキーフレーズ生成(KPG)モデルは、大量の注釈付きデータを必要とする。
KPGモデルの一般的な構文的特徴からドメイン関連セマンティクスへの学習焦点を徐々にガイドする3段階パイプラインを提案する。
実験結果から,提案手法は高品質なキーフレーズを新規ドメインで生成し,ドメイン内アノテートされた限られたデータに適応して一貫した改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-08-20T04:43:01Z) - HRKD: Hierarchical Relational Knowledge Distillation for Cross-domain
Language Model Compression [53.90578309960526]
大規模事前学習言語モデル(PLM)は、従来のニューラルネットワーク手法と比較して圧倒的な性能を示している。
階層的および領域的関係情報の両方を抽出する階層的関係知識蒸留法(HRKD)を提案する。
論文 参考訳(メタデータ) (2021-10-16T11:23:02Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。