論文の概要: Political representation bias in DBpedia and Wikidata as a challenge for
downstream processing
- arxiv url: http://arxiv.org/abs/2301.00671v1
- Date: Thu, 29 Dec 2022 18:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 13:58:20.354775
- Title: Political representation bias in DBpedia and Wikidata as a challenge for
downstream processing
- Title(参考訳): 下流処理の課題としてのDBpediaとWikidataの政治的表現バイアス
- Authors: Ozgur Karadeniz, Bettina Berendt, Sercan Kiyak, Stefan Mertens, Leen
d'Haenens
- Abstract要約: 本稿では,1990年から2020年にかけてのベルギーの政党の相対的過剰あるいは過小評価について,英語のDBpedia,オランダ語のDBpedia,Wikidataで論じる。
特に、英語のDBpediaでは、政治的権利が驚くほど過剰に表現されていることがわかりました。
- 参考スコア(独自算出の注目度): 3.9198548406564604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diversity Searcher is a tool originally developed to help analyse diversity
in news media texts. It relies on a form of automated content analysis and thus
rests on prior assumptions and depends on certain design choices related to
diversity and fairness. One such design choice is the external knowledge
source(s) used. In this article, we discuss implications that these sources can
have on the results of content analysis. We compare two data sources that
Diversity Searcher has worked with - DBpedia and Wikidata - with respect to
their ontological coverage and diversity, and describe implications for the
resulting analyses of text corpora. We describe a case study of the relative
over- or under-representation of Belgian political parties between 1990 and
2020 in the English-language DBpedia, the Dutch-language DBpedia, and Wikidata,
and highlight the many decisions needed with regard to the design of this data
analysis and the assumptions behind it, as well as implications from the
results. In particular, we came across a staggering over-representation of the
political right in the English-language DBpedia.
- Abstract(参考訳): Diversity Searcherは、もともとニュースメディアのテキストの多様性を分析するために開発されたツールだ。
自動コンテンツ分析の形式に依存しており、従って事前の仮定に依存し、多様性と公平性に関連する特定の設計選択に依存する。
そのような設計選択の1つは、使用される外部知識源である。
本稿では,これらの情報源がコンテンツ分析の結果に与える影響について考察する。
私たちは、多様性検索がdbpediaとwikidataの2つのデータソースを比較し、その存在論的カバレッジと多様性について述べ、テキストコーパスの分析結果の意義について説明した。
本稿は,1990年から2020年にかけてのベルギー政党の相対的過大ないし過小表現について,英語dbpedia,オランダ語dbpedia,wikidataで事例研究を行い,このデータ解析の設計やその背後にある仮定,結果からの示唆について,必要な多くの決定について述べる。
特に、英語のDBpediaで、政治的権利の圧倒的な過剰表現に遭遇しました。
関連論文リスト
- Locating Information Gaps and Narrative Inconsistencies Across Languages: A Case Study of LGBT People Portrayals on Wikipedia [49.80565462746646]
我々は,情報ギャップと矛盾を事実レベルで特定するための,効率的かつ信頼性の高い手法であるInfoGap法を紹介した。
我々は、LGBTの人々の描写を分析してInfoGapを評価し、英語、ロシア語、フランス語のウィキペディアの2.7Kの伝記ページを解析した。
論文 参考訳(メタデータ) (2024-10-05T20:40:49Z) - BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation [34.650355693901034]
本稿では,言語間RAGの課題について検討し,既存のシステムの堅牢性を検討するためのデータセットを提案する。
以上の結果から,既存のRAGシステムは多言語で競合する情報を提供する場合の整合性の欠如に悩まされ続けていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Variationist: Exploring Multifaceted Variation and Bias in Written Language Data [3.666781404469562]
言語データの探索と理解は、人間の言語を扱うあらゆる分野において、基本的な段階である。
しかし現時点では、言語の変化とバイアスをシームレスに検査し視覚化する、統一的でカスタマイズ可能なツールが欠如している。
本稿では、このギャップを埋める高度にモジュラーで記述的でタスクに依存しないツールである「変分主義」を紹介する。
論文 参考訳(メタデータ) (2024-06-25T15:41:07Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - Towards Corpus-Scale Discovery of Selection Biases in News Coverage:
Comparing What Sources Say About Entities as a Start [65.28355014154549]
本稿では,大規模ニュースコーパスにおけるニュースコンテンツから直接メディア選択バイアスのパターンを発見するために,スケーラブルなNLPシステムを構築する上での課題について検討する。
我々は,世界519のニュースソースから180万件のニュース記事のコーパスであるNELA-2020のケーススタディを通じて,フレームワークの能力を示す。
論文 参考訳(メタデータ) (2023-04-06T23:36:45Z) - TraSE: Towards Tackling Authorial Style from a Cognitive Science
Perspective [4.123763595394021]
クロスドメインシナリオにおける27,000人以上の著者と1.4万のサンプルによるオーサリング属性実験の結果、90%のアトリビューション精度が得られた。
年齢などの身体的特徴を用いて、TraSE上で定性的な分析を行い、認知的特徴を捉えているという主張を検証する。
論文 参考訳(メタデータ) (2022-06-21T19:55:07Z) - RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文 参考訳(メタデータ) (2022-05-05T14:43:31Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multiple Texts as a Limiting Factor in Online Learning: Quantifying
(Dis-)similarities of Knowledge Networks across Languages [60.00219873112454]
ウィキペディアを通して、ある話題に関する情報を入手する程度が、相談される言語に依存するという仮説を考察する。
ウィキペディアはウェブベースの情報ランドスケープの中心的な部分であるため、言語に関する言語的偏見を示している。
この論文は、研究、教育科学、ウィキペディア研究、計算言語学の橋渡しとなっている。
論文 参考訳(メタデータ) (2020-08-05T11:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。