論文の概要: ProVe: A Pipeline for Automated Provenance Verification of Knowledge
Graphs against Textual Sources
- arxiv url: http://arxiv.org/abs/2210.14846v1
- Date: Wed, 26 Oct 2022 16:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 14:42:54.689444
- Title: ProVe: A Pipeline for Automated Provenance Verification of Knowledge
Graphs against Textual Sources
- Title(参考訳): 証明:テキストソースに対する知識グラフの自動生成検証のためのパイプライン
- Authors: Gabriel Amaral, Odinaldo Rodrigues, Elena Simperl
- Abstract要約: ProVeはパイプライン化されたアプローチで、Knowledge Graphのトリプルが、文書化された成果から抽出されたテキストによってサポートされているかどうかを自動的に検証する。
ProVeはWikidataデータセットで評価され、期待できる結果が全体として達成され、証明からサポートを検出するバイナリ分類タスクにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 5.161088104035106
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge Graphs are repositories of information that gather data from a
multitude of domains and sources in the form of semantic triples, serving as a
source of structured data for various crucial applications in the modern web
landscape, from Wikipedia infoboxes to search engines. Such graphs mainly serve
as secondary sources of information and depend on well-documented and
verifiable provenance to ensure their trustworthiness and usability. However,
their ability to systematically assess and assure the quality of this
provenance, most crucially whether it properly supports the graph's
information, relies mainly on manual processes that do not scale with size.
ProVe aims at remedying this, consisting of a pipelined approach that
automatically verifies whether a Knowledge Graph triple is supported by text
extracted from its documented provenance. ProVe is intended to assist
information curators and consists of four main steps involving rule-based
methods and machine learning models: text extraction, triple verbalisation,
sentence selection, and claim verification. ProVe is evaluated on a Wikidata
dataset, achieving promising results overall and excellent performance on the
binary classification task of detecting support from provenance, with 87.5%
accuracy and 82.9% F1-macro on text-rich sources. The evaluation data and
scripts used in this paper are available on GitHub and Figshare.
- Abstract(参考訳): 知識グラフ(Knowledge Graphs)は、ウィキペディアのインフォボックスから検索エンジンまで、現代のウェブランドスケープにおける様々な重要なアプリケーションのための構造化データソースとして機能する、セマンティックトリプルの形で、複数のドメインやソースからデータを収集する情報のリポジトリである。
このようなグラフは、主に二次的な情報源として機能し、信頼性とユーザビリティを確保するために、十分に文書化され検証された証明に依存する。
しかしながら、グラフの情報を適切にサポートしているかどうかを最も重要視する、この証明の品質を体系的に評価し保証する能力は、主にサイズに応じてスケールしない手動プロセスに依存している。
ProVeは、パイプライン化されたアプローチで、文書化された証明から抽出されたテキストによって、知識グラフのトリプルがサポートされているかどうかを自動的に検証する。
ProVeは情報キュレーターを支援することを目的としており、ルールベースのメソッドと機械学習モデルを含む4つの主要なステップで構成されている。
proofはwikidataデータセット上で評価され、87.5%の精度と82.9%のf1-macroでテキストリッチソースからのサポートを検出するバイナリ分類タスクにおいて、全体的な有望な結果と優れたパフォーマンスを達成している。
この論文で使われている評価データとスクリプトは、githubとfigshareで入手できる。
関連論文リスト
- Triplètoile: Extraction of Knowledge from Microblogging Text [7.848242781280095]
ソーシャルメディアプラットフォーム上でのマイクロブログ投稿からオープンドメインエンティティを含む知識グラフの抽出に適した情報抽出パイプラインを提案する。
我々のパイプラインは、単語の埋め込みに対する階層的クラスタリングを通じて、依存関係解析を活用し、教師なしの方法でエンティティ関係を分類する。
本稿では,デジタルトランスフォーメーションに関する1万ツイートのコーパスからセマンティック・トリプルを抽出し,生成した知識グラフを公開するユースケースを提案する。
論文 参考訳(メタデータ) (2024-08-27T09:35:13Z) - FineFake: A Knowledge-Enriched Dataset for Fine-Grained Multi-Domain Fake News Detection [54.37159298632628]
FineFakeは、フェイクニュース検出のためのマルチドメイン知識強化ベンチマークである。
FineFakeは6つのセマンティックトピックと8つのプラットフォームにまたがる16,909のデータサンプルを含んでいる。
FineFakeプロジェクト全体がオープンソースリポジトリとして公開されている。
論文 参考訳(メタデータ) (2024-03-30T14:39:09Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - FabKG: A Knowledge graph of Manufacturing Science domain utilizing
structured and unconventional unstructured knowledge source [1.2597961235465307]
我々は,商業・教育用両方の実体・関係データに基づく知識グラフを開発する。
学生ノートを活用したKG作成のための新しいクラウドソーシング手法を提案する。
私たちは、すべてのデータソースを使用して、65,000以上のトリプルを含む知識グラフを作成しました。
論文 参考訳(メタデータ) (2022-05-24T02:32:04Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Contribution of Conceptual Modeling to Enhancing Historians' Intuition
-Application to Prosopography [0.0]
本稿では,歴史学者の先史学における直感を自動で支援するプロセスを提案する。
コントリビューションは、概念データモデル、プロセスモデル、およびソースの信頼性と情報の信頼性を組み合わせた一連のルールである。
論文 参考訳(メタデータ) (2020-11-26T13:21:36Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。