論文の概要: SHADE: Semantic Hypernym Annotator for Domain-specific Entities -- DnD Domain Use Case
- arxiv url: http://arxiv.org/abs/2407.00407v1
- Date: Sat, 29 Jun 2024 11:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:15:45.344394
- Title: SHADE: Semantic Hypernym Annotator for Domain-specific Entities -- DnD Domain Use Case
- Title(参考訳): SHADE: ドメイン固有のエンティティのためのセマンティックハイパーネムアノテーション -- DnDドメインユースケース
- Authors: Akila Peiris, Nisansa de Silva,
- Abstract要約: コストにもかかわらず、意味評価のようなNLPタスクには、エンティティのラベル付けと分類が不可欠である。
ファンタジー文学のような一般的な領域からかなり逸脱した特殊なドメインに注釈を付けると、人間による誤りや注釈の相違が多く見られる。
本稿では,ハイファンタジー文学領域におけるアノテートに使用できるアノテーションソフトウェアSHADEを紹介する。
- 参考スコア(独自算出の注目度): 0.2630859234884724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manual data annotation is an important NLP task but one that takes considerable amount of resources and effort. In spite of the costs, labeling and categorizing entities is essential for NLP tasks such as semantic evaluation. Even though annotation can be done by non-experts in most cases, due to the fact that this requires human labor, the process is costly. Another major challenge encountered in data annotation is maintaining the annotation consistency. Annotation efforts are typically carried out by teams of multiple annotators. The annotations need to maintain the consistency in relation to both the domain truth and annotation format while reducing human errors. Annotating a specialized domain that deviates significantly from the general domain, such as fantasy literature, will see a lot of human error and annotator disagreement. So it is vital that proper guidelines and error reduction mechanisms are enforced. One such way to enforce these constraints is using a specialized application. Such an app can ensure that the notations are consistent, and the labels can be pre-defined or restricted reducing the room for errors. In this paper, we present SHADE, an annotation software that can be used to annotate entities in the high fantasy literature domain. Specifically in Dungeons and Dragons lore extracted from the Forgotten Realms Fandom Wiki.
- Abstract(参考訳): 手動データアノテーションは重要なNLPタスクですが、かなりのリソースと労力が必要です。
コストにもかかわらず、意味評価のようなNLPタスクには、エンティティのラベル付けと分類が不可欠である。
ほとんどの場合、アノテーションは非専門家によって行われるが、これは人的労働を必要とするため、プロセスはコストがかかる。
データアノテーションで遭遇するもうひとつの大きな課題は、アノテーションの一貫性を維持することだ。
アノテーションの取り組みは通常、複数のアノテータのチームによって行われる。
アノテーションは、人間のエラーを減らしながら、ドメインの真理とアノテーションフォーマットの両方に関して一貫性を維持する必要がある。
ファンタジー文学のような一般的な領域からかなり逸脱した特殊なドメインに注釈を付けると、人間による誤りや注釈の相違が多く見られる。
したがって、適切なガイドラインとエラー低減メカニズムが実施されることが不可欠である。
このような制約を強制する方法の1つは、特別なアプリケーションを使用することです。
このようなアプリは、表記法が一貫していることを保証することができ、ラベルを事前に定義したり、制限したりすることでエラーの余地を減らすことができる。
本稿では,ハイファンタジー文学分野におけるエンティティの注釈付けに使用できるアノテーションソフトウェアSHADEについて述べる。
特にダンジョンズとドラゴンズでは、Forgotten Realms Fandom Wikiから抽出された。
関連論文リスト
- Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains [60.5207173547769]
バイオメディカル・アーティクルや法定請求書を含む専門分野におけるゼロショット生成サマリーを評価した。
ドメインの専門家からアノテーションを取得し、要約の不整合を識別し、これらのエラーを体系的に分類する。
収集したすべてのアノテーションを公開し、ニュース記事を超えて、事実的に正確な要約を計測および実現するためのさらなる研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T20:51:11Z) - Different Tastes of Entities: Investigating Human Label Variation in
Named Entity Annotations [23.059491714512077]
本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
論文 参考訳(メタデータ) (2024-02-02T14:08:34Z) - EnCore: Fine-Grained Entity Typing by Pre-Training Entity Encoders on
Coreference Chains [22.469469997734965]
本稿では,コアファーリングエンティティの埋め込みが,他のエンティティの埋め込みよりも互いに類似しているようなエンティティエンコーダの事前学習を提案する。
2つの異なるオフザシェルフシステムによって予測されるコア参照リンクのみを考える。
論文 参考訳(メタデータ) (2023-05-22T11:11:59Z) - SciAnnotate: A Tool for Integrating Weak Labeling Sources for Sequence
Labeling [55.71459234749639]
SciAnnotateはSciAnnotateという名前のテキストアノテーションのためのウェブベースのツールで、科学的なアノテーションツールを指す。
我々のツールは、弱いラベルを作成するために複数のユーザフレンドリーなインターフェースを提供する。
本研究では,Bertifying Conditional Hidden Markov Modelを用いて,ツールが生成する弱いラベルを識別する手法を提案する。
論文 参考訳(メタデータ) (2022-08-07T19:18:13Z) - P2P-Loc: Point to Point Tiny Person Localization [47.6728595874315]
本稿では,人物位置決め作業のための新しいポイントベースフレームワークを提案する。
粗い点(粗い点)として各人に注釈を付けることは、正確なバウンディングボックスではなく、オブジェクトの範囲内の任意の点である。
提案手法は,アノテーションを最大80$%のコストで保存しながら,オブジェクトのローカライゼーション性能に匹敵する。
論文 参考訳(メタデータ) (2021-12-31T08:24:43Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Universal Natural Language Processing with Limited Annotations: Try
Few-shot Textual Entailment as a Start [125.23550801424328]
Universal Few-shot Textual Entailment (UFO-Entail)
universal Few-shot Textual Entailment (UFO-Entail)を紹介する。
我々は、このフレームワークにより、事前訓練されたエンターテイメントモデルが、数ショット設定で新しいエンターテイメントドメインでうまく機能できることを実証する。
論文 参考訳(メタデータ) (2020-10-06T09:50:25Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Improving Training on Noisy Stuctured Labels [17.835042432662846]
本稿では,細粒度アノテーションにおける構造化誤りの有無を学習する上での課題を解決するために,誤り訂正ネットワーク(ECN)の新たなフレームワークを提案する。
ECNは、ノイズの多いデータに対するトレーニングのための標準的なアプローチと比較して、きめ細かいアノテーションの予測を大幅に改善する。
論文 参考訳(メタデータ) (2020-03-08T22:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。