論文の概要: Analyzing Race and Country of Citizenship Bias in Wikidata
- arxiv url: http://arxiv.org/abs/2108.05412v1
- Date: Wed, 11 Aug 2021 19:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-14 04:06:58.868472
- Title: Analyzing Race and Country of Citizenship Bias in Wikidata
- Title(参考訳): ウィキデータにおける人種と市民権国の分析
- Authors: Zaina Shaik, Filip Ilievski, Fred Morstatter
- Abstract要約: 我々は、人種と市民権の偏見を概ね検討し、科学者、ソフトウェア開発者、エンジニアのSTEM表現について検討する。
我々は、ヨーロッパと北アメリカに白人と市民権を持つ人々の過剰表現があることを発見した。
我々はマイノリティのSTEM科学者に関するウィキデータの追加データを発見し、リンクした。
- 参考スコア(独自算出の注目度): 2.6081347116384728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As an open and collaborative knowledge graph created by users and bots, it is
possible that the knowledge in Wikidata is biased in regards to multiple
factors such as gender, race, and country of citizenship. Previous work has
mostly studied the representativeness of Wikidata knowledge in terms of genders
of people. In this paper, we examine the race and citizenship bias in general
and in regards to STEM representation for scientists, software developers, and
engineers. By comparing Wikidata queries to real-world datasets, we identify
the differences in representation to characterize the biases present in
Wikidata. Through this analysis, we discovered that there is an
overrepresentation of white individuals and those with citizenship in Europe
and North America; the rest of the groups are generally underrepresented. Based
on these findings, we have found and linked to Wikidata additional data about
STEM scientists from the minorities. This data is ready to be inserted into
Wikidata with a bot. Increasing representation of minority race and country of
citizenship groups can create a more accurate portrayal of individuals in STEM.
- Abstract(参考訳): ユーザやボットが作成したオープンで協調的な知識グラフとして、Wikidataの知識は、性別、人種、市民権の国といった複数の要因に偏っている可能性がある。
これまでの研究は、Wikidataの知識の表現性を人々の性別の観点から研究してきた。
本稿では,科学者,ソフトウェア開発者,技術者を対象としたSTEM表現に関して,一般の人種と市民権のバイアスについて検討する。
Wikidataクエリを実世界のデータセットと比較することにより、表現の違いを特定し、Wikidataに存在するバイアスを特徴付ける。
この分析により、ヨーロッパと北アメリカに白人と市民権を持つ人々の過剰な表現があることが判明した。
これらの結果から,マイノリティのSTEM科学者に関するWikidataの追加データを発見し,関連づけた。
このデータは、ボットでWikidataに挿入される準備ができている。
少数民族や市民権団体の表現の増大は、STEMにおける個人をより正確に表現することができる。
関連論文リスト
- Towards a Brazilian History Knowledge Graph [50.26735825937335]
ブラジル歴史辞典(DHBB)とウィキペディア/ウィキデータに基づくブラジルの歴史に関する知識グラフを構築した。
DHBBに記述されている多くの用語/エンティティがWikidataに対応する概念(またはQ項目)を持っていないことを示す。
論文 参考訳(メタデータ) (2024-03-28T22:05:32Z) - Wiki-based Communities of Interest: Demographics and Outliers [18.953455338226103]
Wikiの情報源によると、このデータはホワイトハウスコロナウイルスタスクフォースのメンバーなど7.5万のコミュニティをカバーしている。
主観的およびグループ中心のデータセットをフォーマットで、またブラウジングインターフェースとしてリリースします。
論文 参考訳(メタデータ) (2023-03-16T09:58:11Z) - Mapping Process for the Task: Wikidata Statements to Text as Wikipedia
Sentences [68.8204255655161]
本稿では,ウィキデータ文をウィキペディアのプロジェクト用自然言語テキスト(WS2T)に変換するタスクに対して,文レベルでのマッピングプロセスを提案する。
主なステップは、文を整理し、四つ組と三つ組のグループとして表現し、それらを英語のウィキペディアで対応する文にマッピングすることである。
文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。
論文 参考訳(メタデータ) (2022-10-23T08:34:33Z) - Does Wikidata Support Analogical Reasoning? [17.68704739786042]
Wikidataの知識が類推的推論をサポートするかどうかを検討する。
Wikidataは類似分類のためのデータ作成に利用できることを示す。
我々は、Wikidataからアナログを抽出する自動手法を導くためのメトリクスセットを考案した。
論文 参考訳(メタデータ) (2022-10-02T20:46:52Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Survey on English Entity Linking on Wikidata [3.8289963781051415]
Wikidataはコミュニティ主導の多言語知識グラフである。
現在のWikidata固有のEntity Linkingデータセットは、DBpediaのような他の知識グラフのためのスキームとアノテーションスキームの違いはない。
ほとんど全てのアプローチはラベルや時々記述のような特定の特性を用いるが、ハイパーリレーショナル構造のような特性は無視する。
論文 参考訳(メタデータ) (2021-12-03T16:02:42Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - One Label, One Billion Faces: Usage and Consistency of Racial Categories
in Computer Vision [75.82110684355979]
顔画像の分類的人種ラベルを提供するコンピュータビジョンデータセットによって符号化された人種システムについて検討する。
各データセットは、名目上等価な人種分類にもかかわらず、かなりユニークな人種体系をコードしている。
我々は、人種的カテゴリーがステレオタイプを符号化し、非整合性からステレオタイプへの分類から民族集団を除外する証拠を見出した。
論文 参考訳(メタデータ) (2021-02-03T22:50:04Z) - Commonsense Knowledge in Wikidata [3.8359194344969807]
本稿では,既存のコモンセンスソースを補完するコモンセンス知識をウィキデータが保持しているかどうかを検討する。
我々はWikidataとConceptNetの関係をマッピングし、Wikidata-CSを既存の統合コモンセンスグラフに統合する。
論文 参考訳(メタデータ) (2020-08-18T18:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。