論文の概要: Namesakes: Ambiguously Named Entities from Wikipedia and News
- arxiv url: http://arxiv.org/abs/2111.11372v1
- Date: Mon, 22 Nov 2021 17:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:42:47.330112
- Title: Namesakes: Ambiguously Named Entities from Wikipedia and News
- Title(参考訳): Namesakes:Wikipediaとニュースの曖昧な名前付きエンティティ
- Authors: Oleg Vasilyev, Aysu Altun, Nidhi Vyas, Vedant Dharnidharka, Erika Lam,
John Bohannon
- Abstract要約: 我々は、英語ウィキペディアとニュース記事から得られた曖昧に命名されたエンティティのデータセットであるNamesakesを提示する。
1000件のニュース記事、28843件のウィキペディア記事、29019件のウィキペディア記事。
- 参考スコア(独自算出の注目度): 0.6058427379240697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Namesakes, a dataset of ambiguously named entities obtained from
English-language Wikipedia and news articles. It consists of 58862 mentions of
4148 unique entities and their namesakes: 1000 mentions from news, 28843 from
Wikipedia articles about the entity, and 29019 Wikipedia backlink mentions.
Namesakes should be helpful in establishing challenging benchmarks for the task
of named entity linking (NEL).
- Abstract(参考訳): 英語ウィキペディアとニュース記事から得られたあいまいな名前のエンティティのデータセットであるnamesakesを提案する。
それは、4148のユニークなエンティティとその名前の58862の言及、1000のニュースからの言及、ウィキペディアに関する記事からの28843の言及、29019のウィキペディアのバックリンクから成り立っている。
Namesakesは、名前付きエンティティリンク(NEL)タスクのための挑戦的なベンチマークを確立するのに役立ちます。
関連論文リスト
- Linking Named Entities in Diderot's \textit{Encyclopédie} to Wikidata [0.0]
ディドロトの『Encyclop'edie』はヨーロッパにおける第8世紀からの参考文献で、その時代の知識を収集することを目的としている。
2つの百科事典間のデジタル接続の欠如は、それらの比較と知識がどのように進化したかの研究を妨げる可能性がある。
我々は,textitEncyclop'edieエントリの10,300以上のアノテーションをWikidata識別子で記述し,これらのエントリをグラフに接続する。
論文 参考訳(メタデータ) (2024-06-05T13:00:04Z) - Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - DaMuEL: A Large Multilingual Dataset for Entity Linking [2.8273701718153563]
DaMuELは、エンティティに関する言語に依存しない情報を含む知識ベースと、知識ベースにリンクされたエンティティの言及を持つウィキペディアテキストの2つのコンポーネントから構成される。
データセットには、知識ベースに279万個の名前付きエンティティと、Wikipediaのテキストから12.3Gトークンが含まれている。
論文 参考訳(メタデータ) (2023-06-15T17:15:52Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - ParaNames: A Massively Multilingual Entity Name Corpus [2.741266294612776]
ParaNamesは、約1400万のエンティティの名前からなる多言語並列名リソースである。
Wikidataをソースとして、私たちはこのタイプの最も大きなリソースを作成します。
論文 参考訳(メタデータ) (2022-02-28T18:58:06Z) - Analyzing Wikidata Transclusion on English Wikipedia [1.5736899098702972]
本研究はウィキデータ・トランスクルージョンの分類とウィキデータ・トランスクルージョンの英訳ウィキペディアにおける分析について述べる。
ウィキデータ・トランスクルージョンはウィキペディアの記事の内容に影響を及ぼすが、前回の統計では61%だったよりもずっと低い率(5%)で起こる。
論文 参考訳(メタデータ) (2020-11-02T14:16:42Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - Entity Extraction from Wikipedia List Pages [2.3605348648054463]
私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
論文 参考訳(メタデータ) (2020-03-11T07:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。