論文の概要: StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes
- arxiv url: http://arxiv.org/abs/2205.14036v1
- Date: Fri, 27 May 2022 15:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:59:25.312054
- Title: StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes
- Title(参考訳): StereoKG: 文化的知識とステレオタイプのためのデータ駆動知識グラフ構築
- Authors: Awantee Deshpande, Dana Ruiter, Marius Mosbach, Dietrich Klakow
- Abstract要約: 文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果として得られたKGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
- 参考スコア(独自算出の注目度): 17.916919837253108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing ethnic or religious bias is important for improving fairness,
accountability, and transparency of natural language processing models.
However, many techniques rely on human-compiled lists of bias terms, which are
expensive to create and are limited in coverage. In this study, we present a
fully data-driven pipeline for generating a knowledge graph (KG) of cultural
knowledge and stereotypes. Our resulting KG covers 5 religious groups and 5
nationalities and can easily be extended to include more entities. Our human
evaluation shows that the majority (59.2%) of non-singleton entries are
coherent and complete stereotypes. We further show that performing intermediate
masked language model training on the verbalized KG leads to a higher level of
cultural awareness in the model and has the potential to increase
classification performance on knowledge-crucial samples on a related task,
i.e., hate speech detection.
- Abstract(参考訳): 民族的・宗教的バイアスの分析は、自然言語処理モデルの公平性、説明責任、透明性を改善する上で重要である。
しかし、多くのテクニックは、人間がコンパイルしたバイアス項のリストに依存しており、作成にコストがかかり、カバー範囲が限られている。
本研究では,文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果、KGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
人間による評価では、非シングルトンエントリの大多数(59.2%)はコヒーレントで完全なステレオタイプであることが示された。
さらに, 中間マスク型言語モデルの学習により, モデルにおける文化的認知度が向上し, 関連する課題,すなわちヘイトスピーチ検出において, 知識調査サンプルの分類性能が向上する可能性が示唆された。
関連論文リスト
- Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias [14.632649933582648]
人気のVLMであるCLIPとそのオープンソース版において,データセット構成,モデルサイズ,多言語学習が性別や人種的偏見に与える影響について検討した。
社会的認知バイアスを評価するために,社会的に帯電した用語を特徴とする顔画像のゼロショット性能を測定した。
論文 参考訳(メタデータ) (2025-01-22T21:08:30Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - Attributing Culture-Conditioned Generations to Pretraining Corpora [26.992883552982335]
我々は、事前学習データパターンに基づいて、モデルがエンティティと文化を関連付ける方法を分析する。
プレトレーニングデータの高周波カルチャーは記憶されたシンボルでより多くの世代を産み出すのに対し、低周波カルチャーの中には何も生まないものもある。
論文 参考訳(メタデータ) (2024-12-30T07:09:25Z) - HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection [0.0]
HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデル性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。
我々は,LGBTQ+や地域ステレオタイプなど,6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype dataset)を確立する。
そして、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを解析し、トークンレベルの重要度を生成し、人間の理解との整合性を確保し、SHAPとSHAPを比較して説明可能性の信頼性スコアを算出する。
論文 参考訳(メタデータ) (2024-09-17T22:06:46Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。