Fugu-MT 論文翻訳(概要): StereoKG: Data-Driven Knowledge Graph Construction for Cultural Knowledge and Stereotypes

論文の概要: StereoKG: Data-Driven Knowledge Graph Construction for Cultural Knowledge and Stereotypes

arxiv url: http://arxiv.org/abs/2205.14036v1
Date: Fri, 27 May 2022 15:09:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 13:59:25.312054
Title: StereoKG: Data-Driven Knowledge Graph Construction for Cultural Knowledge and Stereotypes
Title（参考訳）: StereoKG: 文化的知識とステレオタイプのためのデータ駆動知識グラフ構築
Authors: Awantee Deshpande, Dana Ruiter, Marius Mosbach, Dietrich Klakow
Abstract要約: 文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。結果として得られたKGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
参考スコア（独自算出の注目度）: 17.916919837253108
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Analyzing ethnic or religious bias is important for improving fairness, accountability, and transparency of natural language processing models. However, many techniques rely on human-compiled lists of bias terms, which are expensive to create and are limited in coverage. In this study, we present a fully data-driven pipeline for generating a knowledge graph (KG) of cultural knowledge and stereotypes. Our resulting KG covers 5 religious groups and 5 nationalities and can easily be extended to include more entities. Our human evaluation shows that the majority (59.2%) of non-singleton entries are coherent and complete stereotypes. We further show that performing intermediate masked language model training on the verbalized KG leads to a higher level of cultural awareness in the model and has the potential to increase classification performance on knowledge-crucial samples on a related task, i.e., hate speech detection.
Abstract（参考訳）: 民族的・宗教的バイアスの分析は、自然言語処理モデルの公平性、説明責任、透明性を改善する上で重要である。しかし、多くのテクニックは、人間がコンパイルしたバイアス項のリストに依存しており、作成にコストがかかり、カバー範囲が限られている。本研究では,文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。結果、KGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。人間による評価では、非シングルトンエントリの大多数(59.2%)はコヒーレントで完全なステレオタイプであることが示された。さらに, 中間マスク型言語モデルの学習により, モデルにおける文化的認知度が向上し, 関連する課題,すなわちヘイトスピーチ検出において, 知識調査サンプルの分類性能が向上する可能性が示唆された。

関連論文リスト

CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文参考訳（メタデータ） (2025-06-10T17:16:23Z)
Scaling for Fairness? Analyzing Model Size, Data Composition, and Multilinguality in Vision-Language Bias [14.632649933582648]
人気のVLMであるCLIPとそのオープンソース版において,データセット構成,モデルサイズ,多言語学習が性別や人種的偏見に与える影響について検討した。社会的認知バイアスを評価するために,社会的に帯電した用語を特徴とする顔画像のゼロショット性能を測定した。
論文参考訳（メタデータ） (2025-01-22T21:08:30Z)
Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文参考訳（メタデータ） (2025-01-02T04:57:50Z)
Attributing Culture-Conditioned Generations to Pretraining Corpora [26.992883552982335]
我々は、事前学習データパターンに基づいて、モデルがエンティティと文化を関連付ける方法を分析する。プレトレーニングデータの高周波カルチャーは記憶されたシンボルでより多くの世代を産み出すのに対し、低周波カルチャーの中には何も生まないものもある。
論文参考訳（メタデータ） (2024-12-30T07:09:25Z)
Building Better: Avoiding Pitfalls in Developing Language Resources when Data is Scarce [27.918975040084387]
厳密なデータ収集とラベル付けは、より人間中心で社会的に意識された技術を開発するために不可欠である。我々は,中・低リソース言語に対するNLPアーティファクトに直接かかわる個人からのフィードバックを収集する。
論文参考訳（メタデータ） (2024-10-16T15:51:18Z)
HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection [0.0]
HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデル性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。我々は,LGBTQ+や地域ステレオタイプなど,6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype dataset)を確立する。そして、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを解析し、トークンレベルの重要度を生成し、人間の理解との整合性を確保し、SHAPとSHAPを比較して説明可能性の信頼性スコアを算出する。
論文参考訳（メタデータ） (2024-09-17T22:06:46Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
An Analysis of Social Biases Present in BERT Variants Across Multiple Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。偏見探索の現在の手法は言語に依存していると結論付けている。
論文参考訳（メタデータ） (2022-11-25T23:38:08Z)
O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG) O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文参考訳（メタデータ） (2022-07-13T11:50:05Z)
Improving Fairness in Large-Scale Object Recognition by CrowdSourced Demographic Information [7.968124582214686]
機械学習データセットでオブジェクトをかなり表現することは、特定の文化に対するバイアスの少ないモデルにつながるだろう。コントリビュータの人口構成をクラウドソーシングした,シンプルで汎用的なアプローチを提案する。既存のデータセットと比較して、より公平な世界カバレッジをもたらす分析結果を提示します。
論文参考訳（メタデータ） (2022-06-02T22:55:10Z)
EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文参考訳（メタデータ） (2022-03-28T04:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。