論文の概要: A Study of the Quality of Wikidata
- arxiv url: http://arxiv.org/abs/2107.00156v1
- Date: Thu, 1 Jul 2021 00:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-03 02:39:17.703620
- Title: A Study of the Quality of Wikidata
- Title(参考訳): ウィキデータの品質に関する研究
- Authors: Kartik Shenoy and Filip Ilievski and Daniel Garijo and Daniel Schwabe
and Pedro Szekely
- Abstract要約: Wikidataで低品質な文を検出し解析するフレームワークを開発した。
本研究は,Wikidataコミュニティによるデータ品質向上に向けた継続的な取り組みを補完するものである。
- 参考スコア(独自算出の注目度): 0.7449724123186383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Wikidata has been increasingly adopted by many communities for a wide variety
of applications, which demand high-quality knowledge to deliver successful
results. In this paper, we develop a framework to detect and analyze
low-quality statements in Wikidata by shedding light on the current practices
exercised by the community. We explore three indicators of data quality in
Wikidata, based on: 1) community consensus on the currently recorded knowledge,
assuming that statements that have been removed and not added back are
implicitly agreed to be of low quality; 2) statements that have been
deprecated; and 3) constraint violations in the data. We combine these
indicators to detect low-quality statements, revealing challenges with
duplicate entities, missing triples, violated type rules, and taxonomic
distinctions. Our findings complement ongoing efforts by the Wikidata community
to improve data quality, aiming to make it easier for users and editors to find
and correct mistakes.
- Abstract(参考訳): wikidataは、多くのコミュニティによって、高品質の知識を必要とする様々なアプリケーションで採用されている。
本稿では,wikidata の低品質文の検出と分析を行うためのフレームワークを開発し,コミュニティが実践している現在のプラクティスに光を当てる。
ウィキデータにおけるデータ品質の指標として,1)現在記録されている知識に対するコミュニティのコンセンサス,2)削除された文が低品質であることが暗黙的に合意されていること,2)非推奨の文,3)データの制約違反について検討する。
これらの指標を組み合わせることで、低品質なステートメントを検出し、重複エンティティによる課題、三重項の欠如、型規則違反、分類学的区別を明らかにします。
ウィキデータコミュニティによるデータ品質向上への継続的な取り組みを補完し,ユーザや編集者のミスの発見と修正を容易にすることを目的とした。
関連論文リスト
- Disjointness Violations in Wikidata [0.0]
ウィキデータにおける解離の現在のモデル化について分析する。
我々は、SPARQLクエリを使用して、不一致違反の原因となる各犯人を特定し、矛盾する情報を特定し、修正するための公式をレイアウトする。
論文 参考訳(メタデータ) (2024-10-17T16:07:51Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Leveraging Wikidata's edit history in knowledge graph refinement tasks [77.34726150561087]
編集履歴は、コミュニティが何らかのファジィで分散した合意に達する過程を表す。
Wikidataで最も重要な100のクラスから、すべてのインスタンスの編集履歴を含むデータセットを構築します。
タイプ予測タスクのための知識グラフ埋め込みモデルにおいて,この編集履歴情報を活用する2つの新しい手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-10-27T14:32:45Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Agreeing to Disagree: Annotating Offensive Language Datasets with
Annotators' Disagreement [7.288480094345606]
我々は、アノテータ間の合意のレベルに着目し、攻撃的な言語データセットを作成するためにデータを選択する。
本研究は、異なるトピックをカバーする英語ツイートの3つの新しいデータセットを作成することを含む。
合意の低さがあるような難しいケースは、必ずしも品質の悪いアノテーションによるものではないことを示す。
論文 参考訳(メタデータ) (2021-09-28T08:55:04Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Are Missing Links Predictable? An Inferential Benchmark for Knowledge
Graph Completion [79.07695173192472]
InferWikiは推論能力、仮定、パターンの既存のベンチマークを改善している。
各テストサンプルは、トレーニングセットの支持データで予測可能である。
実験では,大きさや構造が異なるInferWikiの2つの設定をキュレートし,比較データセットとしてCoDExに構築プロセスを適用する。
論文 参考訳(メタデータ) (2021-08-03T09:51:15Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Commonsense Knowledge in Wikidata [3.8359194344969807]
本稿では,既存のコモンセンスソースを補完するコモンセンス知識をウィキデータが保持しているかどうかを検討する。
我々はWikidataとConceptNetの関係をマッピングし、Wikidata-CSを既存の統合コモンセンスグラフに統合する。
論文 参考訳(メタデータ) (2020-08-18T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。