論文の概要: Entity Extraction from Wikipedia List Pages
- arxiv url: http://arxiv.org/abs/2003.05146v1
- Date: Wed, 11 Mar 2020 07:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 15:16:12.472338
- Title: Entity Extraction from Wikipedia List Pages
- Title(参考訳): Wikipediaリストページからのエンティティ抽出
- Authors: Nicolas Heist and Heiko Paulheim
- Abstract要約: 私たちは、DBpediaをバックボーンとして、カテゴリとリストページから大規模な分類を構築します。
遠隔監視により、リストページ内の新しいエンティティの識別のためのトレーニングデータを抽出する。
我々はDBpediaを7.5万の新しい型ステートメントと380万の高精度な新しい事実で拡張する。
- 参考スコア(独自算出の注目度): 2.3605348648054463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When it comes to factual knowledge about a wide range of domains, Wikipedia
is often the prime source of information on the web. DBpedia and YAGO, as large
cross-domain knowledge graphs, encode a subset of that knowledge by creating an
entity for each page in Wikipedia, and connecting them through edges. It is
well known, however, that Wikipedia-based knowledge graphs are far from
complete. Especially, as Wikipedia's policies permit pages about subjects only
if they have a certain popularity, such graphs tend to lack information about
less well-known entities. Information about these entities is oftentimes
available in the encyclopedia, but not represented as an individual page. In
this paper, we present a two-phased approach for the extraction of entities
from Wikipedia's list pages, which have proven to serve as a valuable source of
information. In the first phase, we build a large taxonomy from categories and
list pages with DBpedia as a backbone. With distant supervision, we extract
training data for the identification of new entities in list pages that we use
in the second phase to train a classification model. With this approach we
extract over 700k new entities and extend DBpedia with 7.5M new type statements
and 3.8M new facts of high precision.
- Abstract(参考訳): 幅広いドメインに関する事実的な知識に関しては、ウィキペディアがWeb上の情報の主要な情報源であることが多い。
DBpediaとYAGOは、大きなドメイン間の知識グラフとして、ウィキペディアの各ページのエンティティを作成し、エッジを介してそれらを接続することで、その知識のサブセットをエンコードする。
しかし、wikipediaベースの知識グラフが完成にはほど遠いことはよく知られている。
特にウィキペディアのポリシーは、特定の人気がある場合にのみ主題に関するページを許可するので、そのようなグラフはあまり知られていないエンティティに関する情報を欠く傾向にある。
これらのエンティティに関する情報はしばしば百科事典で入手できるが、個々のページとして表現されない。
本稿では,ウィキペディアのリストページからエンティティを抽出するための2段階のアプローチを提案する。
第1フェーズでは、カテゴリとリストページからDBpediaをバックボーンとして大規模な分類を構築します。
遠隔監視により,第2フェーズで使用するリストページにおいて,新たなエンティティの識別のためのトレーニングデータを抽出し,分類モデルを訓練する。
このアプローチでは、700万以上の新しいエンティティを抽出し、7.5mの新しい型ステートメントと3.8mの高精度な新しいファクトでdbpediaを拡張します。
関連論文リスト
- Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - Open-domain Visual Entity Recognition: Towards Recognizing Millions of
Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。
私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。
PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文 参考訳(メタデータ) (2023-02-22T05:31:26Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Improving Wikipedia Verifiability with AI [116.69749668874493]
私たちはSideと呼ばれるニューラルネットワークベースのシステムを開発し、彼らの主張を支持できないWikipediaの引用を識別する。
本誌の最初の引用レコメンデーションは、既存のWikipediaの引用よりも60%多い選好を集めている。
以上の結果から,Wikipediaの妥当性を高めるために,AIベースのシステムを人間と共同で活用できることが示唆された。
論文 参考訳(メタデータ) (2022-07-08T15:23:29Z) - Surfer100: Generating Surveys From Web Resources on Wikipedia-style [49.23675182917996]
先進言語モデリングの最近の進歩は、ウィキペディアのリード段落生成のための2段階の抽出的抽象的アプローチと組み合わせることができることを示す。
提案手法は,より長いウィキペディアスタイルの要約をセクションで生成するために拡張され,100件の人文調査による詳細な研究を通じて,このような手法が本アプリケーションでどのように苦しむかを検討する。
論文 参考訳(メタデータ) (2021-12-13T02:18:01Z) - A Map of Science in Wikipedia [0.22843885788439797]
ウィキペディア記事と科学雑誌記事の関係を地図化する。
ウィキペディアから引用されたほとんどの雑誌記事はSTEM分野、特に生物学と医学に属する。
ウィキペディアの伝記は、STEM分野と人文科学、特に歴史を結びつける上で重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-10-26T15:44:32Z) - What if we had no Wikipedia? Domain-independent Term Extraction from a
Large News Corpus [9.081222401894552]
我々は、巨大なニュースコーパスの中で「ウィキにふさわしい」用語を特定し、これが実際のウィキペディアのエントリに依存していないか、最小限に抑えられるかを確認することを目指している。
我々の研究はドメイン固有の自動用語抽出問題に新たな光を当て、その問題はまだドメインに依存しない変種である。
論文 参考訳(メタデータ) (2020-09-17T12:45:46Z) - Quantifying Engagement with Citations on Wikipedia [13.703047949952852]
300ページビューの1つは、参照クリックの結果である。
クリックはより短いページや低い品質のページで頻繁に行われる。
最近のコンテンツ、オープンアクセスソース、ライフイベントに関する参考資料が特に人気である。
論文 参考訳(メタデータ) (2020-01-23T15:52:36Z) - Classifying Wikipedia in a fine-grained hierarchy: what graphs can
contribute [0.5530212768657543]
我々は、ウィキペディアを細かな名前付きエンティティオントロジー(NE)に分類するために、グラフ(構造)情報を統合するタスクに対処する。
日本語ウィキペディアから抽出した22,000ページのサブセットを手作業でラベル付けして,大規模な実践実験を行う。
この結果から,グラフ情報の統合は,入力特徴空間の空白度を低減することに成功し,従来の作業と同等かそれ以上の分類結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T14:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。