論文の概要: Assessing the quality of sources in Wikidata across languages: a hybrid
approach
- arxiv url: http://arxiv.org/abs/2109.09405v1
- Date: Mon, 20 Sep 2021 10:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 02:14:38.083863
- Title: Assessing the quality of sources in Wikidata across languages: a hybrid
approach
- Title(参考訳): ウィキデータにおける言語間のソースの品質評価 : ハイブリッドアプローチ
- Authors: Gabriel Amaral, Alessandro Piscopo, Lucie-Aim\'ee Kaffee, Odinaldo
Rodrigues and Elena Simperl
- Abstract要約: いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
- 参考スコア(独自算出の注目度): 64.05097584373979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikidata is one of the most important sources of structured data on the web,
built by a worldwide community of volunteers. As a secondary source, its
contents must be backed by credible references; this is particularly important
as Wikidata explicitly encourages editors to add claims for which there is no
broad consensus, as long as they are corroborated by references. Nevertheless,
despite this essential link between content and references, Wikidata's ability
to systematically assess and assure the quality of its references remains
limited. To this end, we carry out a mixed-methods study to determine the
relevance, ease of access, and authoritativeness of Wikidata references, at
scale and in different languages, using online crowdsourcing, descriptive
statistics, and machine learning. Building on previous work of ours, we run a
series of microtasks experiments to evaluate a large corpus of references,
sampled from Wikidata triples with labels in several languages. We use a
consolidated, curated version of the crowdsourced assessments to train several
machine learning models to scale up the analysis to the whole of Wikidata. The
findings help us ascertain the quality of references in Wikidata, and identify
common challenges in defining and capturing the quality of user-generated
multilingual structured data on the web. We also discuss ongoing editorial
practices, which could encourage the use of higher-quality references in a more
immediate way. All data and code used in the study are available on GitHub for
feedback and further improvement and deployment by the research community.
- Abstract(参考訳): Wikidataは、世界中のボランティアコミュニティによって構築された、ウェブ上の構造化されたデータの最も重要な情報源の1つである。
Wikidataが特に重要であるのは、Wikidataが参照によって裏付けられている限り、広範囲のコンセンサスがないクレームを追加するよう、編集者に強く促すためである。
にもかかわらず、コンテンツと参照の間の本質的なリンクにもかかわらず、wikidataはその参照の質を体系的に評価し保証する能力は限られている。
この目的のために、オンラインのクラウドソーシング、記述統計、機械学習を用いて、Wikidata参照の関連性、アクセスの容易性、信頼性について、大規模および異なる言語で調査する。
従来の研究に基づいて,いくつかの言語でラベル付きWikidataのトリプルからサンプル化した,参照の大規模なコーパスを評価するための,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する上で共通の課題を特定するのに役立つ。
また、より迅速な方法で高品質な参照の使用を促進することができる編集プラクティスについても議論する。
この研究で使われているすべてのデータとコードは、研究コミュニティによるフィードバックとさらなる改善とデプロイのためにgithubで入手できる。
関連論文リスト
- Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs [4.721309965816974]
我々は,Wikidataのインフラを活用して学術データを確実にアクセス可能にすることを提案する。
本研究は,セマンティックWeb関連カンファレンス105件のデータに着目し,ウィキデータに6000件以上のエンティティを拡張・追加する。
論文 参考訳(メタデータ) (2024-11-13T15:34:52Z) - Wikidata as a seed for Web Extraction [4.273966905160028]
複数のWebドメインで公開された新しい事実を識別・抽出できるフレームワークを提案する。
我々は,テキストコレクションから事実を抽出し,Webページから事実を抽出するためのアイデアから着想を得た。
実験の結果,F1スコアでの平均性能は84.07であることがわかった。
論文 参考訳(メタデータ) (2024-01-15T16:35:52Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's
Revision History [5.727994421498849]
Wikidataの完全なリビジョン履歴のデータセットであるWikidated 1.0を提示する。
私たちの知識を最大限に活用するために、それは進化する知識グラフの最初の大きなデータセットを構成する。
論文 参考訳(メタデータ) (2021-12-09T15:54:03Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。