論文の概要: Wikidata as a seed for Web Extraction
- arxiv url: http://arxiv.org/abs/2401.07812v1
- Date: Mon, 15 Jan 2024 16:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:38:55.107459
- Title: Wikidata as a seed for Web Extraction
- Title(参考訳): Web抽出のシードとしてのWikidata
- Authors: Kunpeng Guo, Dennis Diefenbach, Antoine Gourru, Christophe Gravier
- Abstract要約: 複数のWebドメインで公開された新しい事実を識別・抽出できるフレームワークを提案する。
我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。
実験の結果,F1スコアでの平均性能は84.07であることがわかった。
- 参考スコア(独自算出の注目度): 4.273966905160028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikidata has grown to a knowledge graph with an impressive size. To date, it
contains more than 17 billion triples collecting information about people,
places, films, stars, publications, proteins, and many more. On the other side,
most of the information on the Web is not published in highly structured data
repositories like Wikidata, but rather as unstructured and semi-structured
content, more concretely in HTML pages containing text and tables. Finding,
monitoring, and organizing this data in a knowledge graph is requiring
considerable work from human editors. The volume and complexity of the data
make this task difficult and time-consuming. In this work, we present a
framework that is able to identify and extract new facts that are published
under multiple Web domains so that they can be proposed for validation by
Wikidata editors. The framework is relying on question-answering technologies.
We take inspiration from ideas that are used to extract facts from textual
collections and adapt them to extract facts from Web pages. For achieving this,
we demonstrate that language models can be adapted to extract facts not only
from textual collections but also from Web pages. By exploiting the information
already contained in Wikidata the proposed framework can be trained without the
need for any additional learning signals and can extract new facts for a wide
range of properties and domains. Following this path, Wikidata can be used as a
seed to extract facts on the Web. Our experiments show that we can achieve a
mean performance of 84.07 at F1-score. Moreover, our estimations show that we
can potentially extract millions of facts that can be proposed for human
validation. The goal is to help editors in their daily tasks and contribute to
the completion of the Wikidata knowledge graph.
- Abstract(参考訳): Wikidataは、驚くほどの大きさの知識グラフに成長した。
現在までに、人、場所、映画、星、出版物、タンパク質などに関する情報を収集する3分の1以上を含んでいる。
一方、web上の情報のほとんどはwikidataのような高度に構造化されたデータリポジトリではなく、非構造化で半構造化されたコンテンツであり、より具体的にはテキストとテーブルを含むhtmlページである。
このデータを知識グラフで見つけ、監視し、整理するには、人間の編集者によるかなりの作業が必要である。
データ量と複雑さにより、このタスクは難しく、時間がかかります。
本研究では,複数のWebドメインで公開されている新たな事実を識別し,抽出し,ウィキデータエディタによる検証のために提案できるフレームワークを提案する。
このフレームワークは質問応答技術に依存している。
我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。
これを実現するために,テキストコレクションだけでなく,Webページからも,言語モデルを用いて事実を抽出できることを実証する。
Wikidataにすでに含まれている情報を活用することで、追加の学習シグナルを必要とせずにフレームワークをトレーニングし、幅広いプロパティやドメインに対して新たな事実を抽出することができる。
このパスに従って、WikidataはWeb上の事実を抽出するためのシードとして使用できる。
実験の結果,F1スコアでの平均性能は84.07。
さらに,人間の検証のために提案できる事実を数百万件抽出できる可能性が示唆された。
目標は、編集者が日々のタスクをこなし、Wikidataナレッジグラフの完成に貢献することである。
関連論文リスト
- Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs [4.721309965816974]
我々は,Wikidataのインフラを活用して学術データを確実にアクセス可能にすることを提案する。
本研究は,セマンティックWeb関連カンファレンス105件のデータに着目し,ウィキデータに6000件以上のエンティティを拡張・追加する。
論文 参考訳(メタデータ) (2024-11-13T15:34:52Z) - Leveraging Wikidata's edit history in knowledge graph refinement tasks [77.34726150561087]
編集履歴は、コミュニティが何らかのファジィで分散した合意に達する過程を表す。
Wikidataで最も重要な100のクラスから、すべてのインスタンスの編集履歴を含むデータセットを構築します。
タイプ予測タスクのための知識グラフ埋め込みモデルにおいて,この編集履歴情報を活用する2つの新しい手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-10-27T14:32:45Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's
Revision History [5.727994421498849]
Wikidataの完全なリビジョン履歴のデータセットであるWikidated 1.0を提示する。
私たちの知識を最大限に活用するために、それは進化する知識グラフの最初の大きなデータセットを構成する。
論文 参考訳(メタデータ) (2021-12-09T15:54:03Z) - Survey on English Entity Linking on Wikidata [3.8289963781051415]
Wikidataはコミュニティ主導の多言語知識グラフである。
現在のWikidata固有のEntity Linkingデータセットは、DBpediaのような他の知識グラフのためのスキームとアノテーションスキームの違いはない。
ほとんど全てのアプローチはラベルや時々記述のような特定の特性を用いるが、ハイパーリレーショナル構造のような特性は無視する。
論文 参考訳(メタデータ) (2021-12-03T16:02:42Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。