論文の概要: StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes
- arxiv url: http://arxiv.org/abs/2205.14036v1
- Date: Fri, 27 May 2022 15:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:59:25.312054
- Title: StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes
- Title(参考訳): StereoKG: 文化的知識とステレオタイプのためのデータ駆動知識グラフ構築
- Authors: Awantee Deshpande, Dana Ruiter, Marius Mosbach, Dietrich Klakow
- Abstract要約: 文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果として得られたKGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
- 参考スコア(独自算出の注目度): 17.916919837253108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing ethnic or religious bias is important for improving fairness,
accountability, and transparency of natural language processing models.
However, many techniques rely on human-compiled lists of bias terms, which are
expensive to create and are limited in coverage. In this study, we present a
fully data-driven pipeline for generating a knowledge graph (KG) of cultural
knowledge and stereotypes. Our resulting KG covers 5 religious groups and 5
nationalities and can easily be extended to include more entities. Our human
evaluation shows that the majority (59.2%) of non-singleton entries are
coherent and complete stereotypes. We further show that performing intermediate
masked language model training on the verbalized KG leads to a higher level of
cultural awareness in the model and has the potential to increase
classification performance on knowledge-crucial samples on a related task,
i.e., hate speech detection.
- Abstract(参考訳): 民族的・宗教的バイアスの分析は、自然言語処理モデルの公平性、説明責任、透明性を改善する上で重要である。
しかし、多くのテクニックは、人間がコンパイルしたバイアス項のリストに依存しており、作成にコストがかかり、カバー範囲が限られている。
本研究では,文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果、KGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
人間による評価では、非シングルトンエントリの大多数(59.2%)はコヒーレントで完全なステレオタイプであることが示された。
さらに, 中間マスク型言語モデルの学習により, モデルにおける文化的認知度が向上し, 関連する課題,すなわちヘイトスピーチ検出において, 知識調査サンプルの分類性能が向上する可能性が示唆された。
関連論文リスト
- Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Pre-training and Diagnosing Knowledge Base Completion Models [58.07183284468881]
我々は,事実の集合から他の集合への知識伝達へのアプローチを,エンティティや関係マッチングを必要とせずに導入し,分析する。
主な貢献は、構造化されていないテキストから収集された事実の大規模事前学習を利用する方法である。
得られた事前学習モデルをよりよく理解するために,オープン知識ベースコンプリートのための事前学習モデルの解析のための新しいデータセットを導入する。
論文 参考訳(メタデータ) (2024-01-27T15:20:43Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models [4.211128681972148]
我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。
我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
論文 参考訳(メタデータ) (2023-01-11T07:52:59Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Improving Fairness in Large-Scale Object Recognition by CrowdSourced
Demographic Information [7.968124582214686]
機械学習データセットでオブジェクトをかなり表現することは、特定の文化に対するバイアスの少ないモデルにつながるだろう。
コントリビュータの人口構成をクラウドソーシングした,シンプルで汎用的なアプローチを提案する。
既存のデータセットと比較して、より公平な世界カバレッジをもたらす分析結果を提示します。
論文 参考訳(メタデータ) (2022-06-02T22:55:10Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。