Fugu-MT 論文翻訳(概要): Filipino Benchmarks for Measuring Sexist and Homophobic Bias in Multilingual Language Models from Southeast Asia

論文の概要: Filipino Benchmarks for Measuring Sexist and Homophobic Bias in Multilingual Language Models from Southeast Asia

arxiv url: http://arxiv.org/abs/2412.07303v1
Date: Tue, 10 Dec 2024 08:31:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.297889
Title: Filipino Benchmarks for Measuring Sexist and Homophobic Bias in Multilingual Language Models from Southeast Asia
Title（参考訳）: 東南アジアの多言語言語モデルにおける性差とホモフォビックバイアスの測定のためのフィリピンのベンチマーク
Authors: Lance Calvin Lim Gamboa, Mark Lee,
Abstract要約: フィリピンのテキストを扱う事前訓練された言語モデルにおいて、性差別とアンチクイアバイアスの両方を評価するベンチマークを導入する。ベンチマークは、英国偏見評価データセットの文化的適応による7,074の新たな課題ペアで構成されています。多言語モデルの場合、特定の言語で学習したバイアスの程度は、モデルが暴露した言語における事前学習データ量に影響されることがわかった。
参考スコア（独自算出の注目度）: 0.3376269351435396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bias studies on multilingual models confirm the presence of gender-related stereotypes in masked models processing languages with high NLP resources. We expand on this line of research by introducing Filipino CrowS-Pairs and Filipino WinoQueer: benchmarks that assess both sexist and anti-queer biases in pretrained language models (PLMs) handling texts in Filipino, a low-resource language from the Philippines. The benchmarks consist of 7,074 new challenge pairs resulting from our cultural adaptation of English bias evaluation datasets, a process that we document in detail to guide similar forthcoming efforts. We apply the Filipino benchmarks on masked and causal multilingual models, including those pretrained on Southeast Asian data, and find that they contain considerable amounts of bias. We also find that for multilingual models, the extent of bias learned for a particular language is influenced by how much pretraining data in that language a model was exposed to. Our benchmarks and insights can serve as a foundation for future work analyzing and mitigating bias in multilingual models.
Abstract（参考訳）: 多言語モデルに関するバイアス研究は、高いNLP資源を持つマスモデル処理言語における性別関連ステレオタイプの存在を確認する。フィリピンの低リソース言語であるフィリピンのテキストを扱うプレトレーニング言語モデル(PLM)において、性差別とアンチクイアバイアスの両方を評価するベンチマークである。ベンチマークは、英国偏見評価データセットの文化的適応による7,074の新たな課題ペアで構成されています。フィリピンのベンチマークを、東南アジアのデータで事前訓練されたものを含む、マスク付きおよび因果多言語モデルに適用し、かなりのバイアスがあることを見出した。また、多言語モデルでは、特定の言語で学習したバイアスの程度が、モデルが暴露した言語における事前学習データ量に影響されていることも判明した。私たちのベンチマークと洞察は、多言語モデルにおけるバイアスの分析と緩和のための基盤として役立ちます。

関連論文リスト

Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-02T12:17:55Z)
Bias Attribution in Filipino Language Models: Extending a Bias Interpretability Metric for Application on Agglutinative Languages [8.58480189544444]
言語モデルの実装に情報理論バイアス属性スコアを適応させる。フィリピンのモデルは、人、物、関係に関連する言葉によって偏見を向けられていることを示す。これらの知見は、英語と非英語のモデルが、社会デマログラフ群と偏見に関連する入力をどのように処理するかの相違を示唆している。
論文参考訳（メタデータ） (2025-06-08T18:13:18Z)
EuroGEST: Investigating gender stereotypes in multilingual language models [53.88459905621724]
大規模言語モデルはますます複数の言語をサポートするようになったが、ほとんどのベンチマークは英語中心のままである。 EuroGESTは、英語と29のヨーロッパ言語にまたがるLLMにおける性別ステレオタイプ推論を計測するためのデータセットである。
論文参考訳（メタデータ） (2025-06-04T11:58:18Z)
Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting [8.478711218359532]
言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
論文参考訳（メタデータ） (2025-04-15T13:40:22Z)
A Novel Interpretability Metric for Explaining Bias in Language Models: Applications on Multilingual Models from Southeast Asia [0.3376269351435396]
事前学習言語モデル(PLM)におけるバイアス行動に対するトークンレベルの寄与を測定するための新しい指標を提案する。東南アジアのPLMにおいて性差別と同性愛バイアスの存在が確認された。解釈可能性と意味分析は、PLMバイアスが犯罪、親密な関係、助けに関する言葉によって強く引き起こされることを示している。
論文参考訳（メタデータ） (2024-10-20T18:31:05Z)
Do Multilingual Large Language Models Mitigate Stereotype Bias? [9.31741279000585]
この研究は、英語、ドイツ語、フランス語、イタリア語、スペイン語で同じ大きさの6つのLLMを体系的に訓練する。単言語モデルと比較して,多言語モデルの方がバイアスの低いだけでなく,予測精度も優れていることが観察された。
論文参考訳（メタデータ） (2024-07-08T08:46:50Z)
Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-01-29T12:02:28Z)
Language-Agnostic Bias Detection in Language Models with Bias Probing [22.695872707061078]
プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。本研究では,PAMにおける社会的バイアスを頑健かつ言語に依存しない方法で評価するための,LABDetと呼ばれるバイアス探索手法を提案する。歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスパターンがモノリンガル PLM にまたがっていることがわかった。
論文参考訳（メタデータ） (2023-05-22T17:58:01Z)
Comparing Biases and the Impact of Multilingual Training across Multiple Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文参考訳（メタデータ） (2023-05-18T18:15:07Z)
An Analysis of Social Biases Present in BERT Variants Across Multiple Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。偏見探索の現在の手法は言語に依存していると結論付けている。
論文参考訳（メタデータ） (2022-11-25T23:38:08Z)
Are Pretrained Multilingual Models Equally Fair Across Languages? [0.0]
この研究は多言語モデルの群フェアネスを調査し、これらのモデルが言語間で等しく公平かどうかを問う。我々は、MozArt上の3つの多言語モデル(mBERT、XLM-R、mT5)を評価し、これらのモデルが4つの対象言語で異なるグループ格差を示すことを示す。
論文参考訳（メタデータ） (2022-10-11T13:59:19Z)
Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文参考訳（メタデータ） (2022-05-24T03:35:00Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文参考訳（メタデータ） (2021-09-01T09:32:06Z)
Quantifying Gender Bias Towards Politicians in Cross-Lingual Language Models [104.41668491794974]
代名詞として政治家の名前を取り巻く言語モデルによって生成される形容詞と動詞の用法を定量化する。死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが判明した。
論文参考訳（メタデータ） (2021-04-15T15:03:26Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。