論文の概要: Diagnosing and Mitigating Semantic Inconsistencies in Wikidata's Classification Hierarchy
- arxiv url: http://arxiv.org/abs/2511.04926v1
- Date: Fri, 07 Nov 2025 02:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.65057
- Title: Diagnosing and Mitigating Semantic Inconsistencies in Wikidata's Classification Hierarchy
- Title(参考訳): Wikidataの分類階層における意味的不整合の診断と緩和
- Authors: Shixiong Zhao, Hideaki Takeda,
- Abstract要約: Wikidataはウェブ上で最大のオープンナレッジグラフであり、1億2000万以上のエンティティを含んでいる。
本研究では,分類誤りと過一般化サブクラスリンクの存在を確認するために,新しい検証手法を提案し,適用した。
ユーザが任意のウィキデータエンティティの分類関係を検査できるシステムを開発した。
- 参考スコア(独自算出の注目度): 1.4705700441788643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wikidata is currently the largest open knowledge graph on the web, encompassing over 120 million entities. It integrates data from various domain-specific databases and imports a substantial amount of content from Wikipedia, while also allowing users to freely edit its content. This openness has positioned Wikidata as a central resource in knowledge graph research and has enabled convenient knowledge access for users worldwide. However, its relatively loose editorial policy has also led to a degree of taxonomic inconsistency. Building on prior work, this study proposes and applies a novel validation method to confirm the presence of classification errors, over-generalized subclass links, and redundant connections in specific domains of Wikidata. We further introduce a new evaluation criterion for determining whether such issues warrant correction and develop a system that allows users to inspect the taxonomic relationships of arbitrary Wikidata entities-leveraging the platform's crowdsourced nature to its full potential.
- Abstract(参考訳): Wikidataは現在、ウェブ上で最大のオープンナレッジグラフであり、1億2000万以上のエンティティを含んでいる。
さまざまなドメイン固有のデータベースからのデータを統合し、Wikipediaからかなりの量のコンテンツをインポートすると同時に、ユーザは自由にコンテンツを編集できる。
このオープン性はWikidataを知識グラフ研究の中心的なリソースとして位置づけ、世界中のユーザにとって便利な知識アクセスを可能にした。
しかし、その比較的緩い編集方針は、分類学的不整合の程度にも繋がった。
本研究は,先行研究に基づいて,Wikidataの特定の領域における分類誤り,過度に一般化されたサブクラスリンク,冗長な接続の存在を確認するための新しい検証手法を提案し,適用した。
さらに,このような問題が修正を保証しているかどうかを判断するための新たな評価基準を導入するとともに,利用者が任意のウィキデータエンティティの分類関係を検査できるシステムを開発する。
関連論文リスト
- Leveraging Wikidata's edit history in knowledge graph refinement tasks [77.34726150561087]
編集履歴は、コミュニティが何らかのファジィで分散した合意に達する過程を表す。
Wikidataで最も重要な100のクラスから、すべてのインスタンスの編集履歴を含むデータセットを構築します。
タイプ予測タスクのための知識グラフ埋め込みモデルにおいて,この編集履歴情報を活用する2つの新しい手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-10-27T14:32:45Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - Wikidated 1.0: An Evolving Knowledge Graph Dataset of Wikidata's
Revision History [5.727994421498849]
Wikidataの完全なリビジョン履歴のデータセットであるWikidated 1.0を提示する。
私たちの知識を最大限に活用するために、それは進化する知識グラフの最初の大きなデータセットを構成する。
論文 参考訳(メタデータ) (2021-12-09T15:54:03Z) - Survey on English Entity Linking on Wikidata [3.8289963781051415]
Wikidataはコミュニティ主導の多言語知識グラフである。
現在のWikidata固有のEntity Linkingデータセットは、DBpediaのような他の知識グラフのためのスキームとアノテーションスキームの違いはない。
ほとんど全てのアプローチはラベルや時々記述のような特定の特性を用いるが、ハイパーリレーショナル構造のような特性は無視する。
論文 参考訳(メタデータ) (2021-12-03T16:02:42Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Commonsense Knowledge in Wikidata [3.8359194344969807]
本稿では,既存のコモンセンスソースを補完するコモンセンス知識をウィキデータが保持しているかどうかを検討する。
我々はWikidataとConceptNetの関係をマッピングし、Wikidata-CSを既存の統合コモンセンスグラフに統合する。
論文 参考訳(メタデータ) (2020-08-18T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。