論文の概要: StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes
- arxiv url: http://arxiv.org/abs/2205.14036v1
- Date: Fri, 27 May 2022 15:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:59:25.312054
- Title: StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes
- Title(参考訳): StereoKG: 文化的知識とステレオタイプのためのデータ駆動知識グラフ構築
- Authors: Awantee Deshpande, Dana Ruiter, Marius Mosbach, Dietrich Klakow
- Abstract要約: 文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果として得られたKGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
- 参考スコア(独自算出の注目度): 17.916919837253108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing ethnic or religious bias is important for improving fairness,
accountability, and transparency of natural language processing models.
However, many techniques rely on human-compiled lists of bias terms, which are
expensive to create and are limited in coverage. In this study, we present a
fully data-driven pipeline for generating a knowledge graph (KG) of cultural
knowledge and stereotypes. Our resulting KG covers 5 religious groups and 5
nationalities and can easily be extended to include more entities. Our human
evaluation shows that the majority (59.2%) of non-singleton entries are
coherent and complete stereotypes. We further show that performing intermediate
masked language model training on the verbalized KG leads to a higher level of
cultural awareness in the model and has the potential to increase
classification performance on knowledge-crucial samples on a related task,
i.e., hate speech detection.
- Abstract(参考訳): 民族的・宗教的バイアスの分析は、自然言語処理モデルの公平性、説明責任、透明性を改善する上で重要である。
しかし、多くのテクニックは、人間がコンパイルしたバイアス項のリストに依存しており、作成にコストがかかり、カバー範囲が限られている。
本研究では,文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果、KGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
人間による評価では、非シングルトンエントリの大多数(59.2%)はコヒーレントで完全なステレオタイプであることが示された。
さらに, 中間マスク型言語モデルの学習により, モデルにおける文化的認知度が向上し, 関連する課題,すなわちヘイトスピーチ検出において, 知識調査サンプルの分類性能が向上する可能性が示唆された。
関連論文リスト
- HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection [0.0]
HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデル性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。
我々は,LGBTQ+や地域ステレオタイプなど,6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype dataset)を確立する。
そして、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを解析し、トークンレベルの重要度を生成し、人間の理解との整合性を確保し、SHAPとSHAPを比較して説明可能性の信頼性スコアを算出する。
論文 参考訳(メタデータ) (2024-09-17T22:06:46Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Improving Fairness in Large-Scale Object Recognition by CrowdSourced
Demographic Information [7.968124582214686]
機械学習データセットでオブジェクトをかなり表現することは、特定の文化に対するバイアスの少ないモデルにつながるだろう。
コントリビュータの人口構成をクラウドソーシングした,シンプルで汎用的なアプローチを提案する。
既存のデータセットと比較して、より公平な世界カバレッジをもたらす分析結果を提示します。
論文 参考訳(メタデータ) (2022-06-02T22:55:10Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。