論文の概要: Guidelines and a Corpus for Extracting Biographical Events
- arxiv url: http://arxiv.org/abs/2206.03547v1
- Date: Tue, 7 Jun 2022 19:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:26:05.192059
- Title: Guidelines and a Corpus for Extracting Biographical Events
- Title(参考訳): 伝記的出来事抽出のためのガイドラインとコーパス
- Authors: Marco Antonio Stranisci, Enrico Mensa, Ousmane Diakite, Daniele
Radicioni, Rossana Damiano
- Abstract要約: 本研究は,ライフイベントの意味的アノテーションに関するガイドラインのセットを提供することによって,この制限に挑戦する。
ISO-TimeML (ISO-24617-1) および SemAF (ISO-24617-4) である。
- 参考スコア(独自算出の注目度): 1.181206257787103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite biographies are widely spread within the Semantic Web, resources and
approaches to automatically extract biographical events are limited. Such
limitation reduces the amount of structured, machine-readable biographical
information, especially about people belonging to underrepresented groups. Our
work challenges this limitation by providing a set of guidelines for the
semantic annotation of life events. The guidelines are designed to be
interoperable with existing ISO-standards for semantic annotation: ISO-TimeML
(ISO-24617-1), and SemAF (ISO-24617-4). Guidelines were tested through an
annotation task of Wikipedia biographies of underrepresented writers, namely
authors born in non-Western countries, migrants, or belonging to ethnic
minorities. 1,000 sentences were annotated by 4 annotators with an average
Inter-Annotator Agreement of 0.825. The resulting corpus was mapped on
OntoNotes. Such mapping allowed to to expand our corpus, showing that already
existing resources may be exploited for the biographical event extraction task.
- Abstract(参考訳): バイオグラフィーはセマンティックウェブに広く普及しているが、自動的に伝記イベントを抽出するリソースやアプローチは限られている。
このような制限は、構造化され、機械で読める伝記情報、特に少数集団に属する人々の量を減らす。
我々の研究は、ライフイベントの意味的アノテーションの一連のガイドラインを提供することによって、この制限に挑戦する。
このガイドラインは、ISO-TimeML (ISO-24617-1) とSemAF (ISO-24617-4) と相互運用できるように設計されている。
ガイドラインはウィキペディアのバイオグラフィー、すなわち非西欧諸国で生まれた作家、移民、または少数民族に属する作家の注釈によってテストされた。
1000の文は4つのアノテーションによって注釈付けされ、平均的なアノテーション間合意は0.825である。
得られたコーパスはOntoNotesにマップされた。
このようなマッピングによってコーパスを拡大することができ、既存のリソースをバイオグラフィカルなイベント抽出タスクに活用できることを示した。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains [60.5207173547769]
バイオメディカル・アーティクルや法定請求書を含む専門分野におけるゼロショット生成サマリーを評価した。
ドメインの専門家からアノテーションを取得し、要約の不整合を識別し、これらのエラーを体系的に分類する。
収集したすべてのアノテーションを公開し、ニュース記事を超えて、事実的に正確な要約を計測および実現するためのさらなる研究を促進する。
論文 参考訳(メタデータ) (2024-02-05T20:51:11Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Wikibio: a Semantic Resource for the Intersectional Analysis of
Biographical Events [3.8455936323976694]
文献的事象検出のための新しいコーパスを提示する。
このモデルでは、Fスコア0.808のバイオグラフィーでターゲットエンティリティのすべての言及を検出することができた。
また、ウィキペディアの伝記の中で、女性と非西洋人の偏見の分析にも使用された。
論文 参考訳(メタデータ) (2023-06-15T20:59:37Z) - GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and
Linguistic Evaluation [15.886585212606787]
GENTLEは17Kトークンからなる新しい混成英語チャレンジコーパスである。
GENTLEは様々なNLPタスクに手動で注釈付けされる。
我々は、GENTLE上での最先端NLPシステムの評価を行い、全てのタスクにおいて、少なくともいくつかのジャンルにおいて深刻な劣化が見られた。
論文 参考訳(メタデータ) (2023-06-03T00:20:15Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Long Document Summarization in a Low Resource Setting using Pretrained
Language Models [28.042826329840437]
我々は、平均ソース文書長4268ワードの長い法的ブリーフを要約する挑戦的な低リソース設定を研究します。
我々は17.9 ROUGE-Lを達成し、それが長い文と闘うように、現代の事前訓練抽象要約BARTを使用します。
圧縮された文書をBARTに送付すると,6.0ROUGE-Lの改善が観察される。
論文 参考訳(メタデータ) (2021-03-01T04:43:55Z) - Topic-Centric Unsupervised Multi-Document Summarization of Scientific
and News Articles [3.0504782036247438]
本稿では,トピック中心のマルチドキュメント要約フレームワークを提案し,抽象的な要約を生成する。
提案アルゴリズムは,有能な言語単位選択とテキスト生成技術を開発することにより,抽象的な要約を生成する。
提案手法は,自動抽出評価指標を用いて評価した場合の最先端技術と一致し,人間の5つの評価指標の抽象的要約に優れる。
論文 参考訳(メタデータ) (2020-11-03T04:04:21Z) - Constrained Abstractive Summarization: Preserving Factual Consistency
with Constrained Generation [93.87095877617968]
本稿では,抽象要約の現実的一貫性を保ちつつ,制約付き抽象要約(CAS)を提案する。
我々は、CASを満たすために、一般的に自己回帰生成モデルに適用される語彙制約付き復号法を採用する。
対話的要約において1つの手動制約のみを使用する場合、最大13.8ROUGE-2ゲインを観測する。
論文 参考訳(メタデータ) (2020-10-24T00:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。