論文の概要: Fine Tuning Named Entity Extraction Models for the Fantasy Domain
- arxiv url: http://arxiv.org/abs/2402.10662v1
- Date: Fri, 16 Feb 2024 13:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:15:55.610128
- Title: Fine Tuning Named Entity Extraction Models for the Fantasy Domain
- Title(参考訳): ファンタジー領域における名前付きエンティティ抽出モデルの微調整
- Authors: Aravinth Sivaganeshan, Nisansa de Silva
- Abstract要約: この作業では、D&Dドメインで利用可能なモンスターのロアを使用して、多作なNERフレームワークであるTrankitを微調整する。
システムは、新しいNERタグの下で、関連するドメイン文書からモンスター名を抽出する機能を取得する。
- 参考スコア(独自算出の注目度): 0.3108011671896571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) is a sequence classification Natural Language
Processing task where entities are identified in the text and classified into
predefined categories. It acts as a foundation for most information extraction
systems. Dungeons and Dragons (D&D) is an open-ended tabletop fantasy game with
its own diverse lore. DnD entities are domain-specific and are thus
unrecognizable by even the state-of-the-art off-the-shelf NER systems as the
NER systems are trained on general data for pre-defined categories such as:
person (PERS), location (LOC), organization (ORG), and miscellaneous (MISC).
For meaningful extraction of information from fantasy text, the entities need
to be classified into domain-specific entity categories as well as the models
be fine-tuned on a domain-relevant corpus. This work uses available lore of
monsters in the D&D domain to fine-tune Trankit, which is a prolific NER
framework that uses a pre-trained model for NER. Upon this training, the system
acquires the ability to extract monster names from relevant domain documents
under a novel NER tag. This work compares the accuracy of the monster name
identification against; the zero-shot Trankit model and two FLAIR models. The
fine-tuned Trankit model achieves an 87.86% F1 score surpassing all the other
considered models.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、テキスト内でエンティティを識別し、事前に定義されたカテゴリに分類する、シーケンス分類自然言語処理タスクである。
ほとんどの情報抽出システムの基盤として機能する。
Dungeons and Dragons(ダンジョンズ・アンド・ドラゴンズ、D&D)は、オープンエンドのテーブルトップファンタジーゲーム。
DnDエンティティはドメイン固有であり、NERシステムは人(PERS)、場所(LOC)、組織(ORG)、雑種(MISC)といった事前定義されたカテゴリの一般的なデータに基づいて訓練されているため、最先端のNERシステムでも認識できない。
ファンタジーテキストから意味のある情報を抽出するには、エンティティをドメイン固有のエンティティカテゴリに分類し、モデルをドメイン関連コーパスで微調整する必要がある。
この作業では、D&Dドメインで利用可能なモンスターのロアを使用して、NERの事前トレーニングモデルを使用した多作なNERフレームワークであるTrankitを微調整する。
このトレーニングでは,新たなNERタグの下で,関連するドメイン文書からモンスター名を抽出することができる。
この研究は、ゼロショットのTrankitモデルと2つのFLAIRモデルとのモンスター名識別の精度を比較した。
微調整のTrankitモデルでは87.86%のF1スコアが他のすべてのモデルを上回る。
関連論文リスト
- Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - MProto: Multi-Prototype Network with Denoised Optimal Transport for
Distantly Supervised Named Entity Recognition [75.87566793111066]
本稿では,DS-NERタスクのためのMProtoというノイズロスのプロトタイプネットワークを提案する。
MProtoは、各エンティティタイプを複数のプロトタイプで表現し、クラス内の分散を特徴付ける。
不完全なラベリングからノイズを緩和するために,新しい復号化最適輸送(DOT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T13:02:34Z) - Comparative Analysis of Named Entity Recognition in the Dungeons and
Dragons Domain [0.3108011671896571]
7つのダンジョンズ・アンド・ドラゴンズ(D&D)アドベンチャーブックの10種類の名前付きエンティティ認識(NER)モデルを分析し,ドメイン固有のパフォーマンスを評価する。
以上の結果から,Frair,Trankit,SpacyはD&Dコンテキストにおける名前の特定において他者よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-29T12:09:36Z) - SEE-Few: Seed, Expand and Entail for Few-shot Named Entity Recognition [17.344816459055835]
名前付きエンティティ認識(NER)は、わずかにラベル付きインスタンスに基づいて名前付きエンティティを識別することを目的としている。
そこで本研究では,Few-shot NERのためのマルチタスク学習フレームワークであるSEE-Fewを提案する。
4つのベンチマークデータセットによる実験結果から,提案手法は最先端のNER法よりも大きなマージンを有することがわかった。
論文 参考訳(メタデータ) (2022-10-11T17:20:47Z) - Dynamic Instance Domain Adaptation [109.53575039217094]
教師なしのドメイン適応に関するほとんどの研究は、各ドメインのトレーニングサンプルがドメインラベルを伴っていると仮定している。
適応的な畳み込みカーネルを持つ動的ニューラルネットワークを開発し、各インスタンスにドメインに依存しない深い特徴を適応させるために、インスタンス適応残差を生成する。
我々のモデルはDIDA-Netと呼ばれ、複数の一般的な単一ソースおよび複数ソースのUDAデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-09T20:05:54Z) - Simple Questions Generate Named Entity Recognition Datasets [18.743889213075274]
この研究は、単純な自然言語の質問によってNERデータセットを自動的に生成する、要求対生成のアプローチを導入している。
我々のモデルは、4つの異なる領域にわたる6つのNERベンチマークにおいて、以前の弱い教師付きモデルよりも大幅に優れています。
自然言語でNERのニーズを定式化することで、アワードのようなきめ細かいエンティティタイプのためのNERモデルを構築することもできます。
論文 参考訳(メタデータ) (2021-12-16T11:44:38Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Domain-Transferable Method for Named Entity Recognition Task [0.6040938686276304]
本稿では、任意の名前付きエンティティの集合に対して、ドメイン固有のNERモデルを学習する方法について述べる。
我々は、人間の努力なしに監督が得られ、ニューラルモデルが互いに学習できると仮定する。
論文 参考訳(メタデータ) (2020-11-24T15:45:52Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。