論文の概要: Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2504.11183v1
- Date: Tue, 15 Apr 2025 13:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:33.027669
- Title: Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting
- Title(参考訳): Bias Beyond English: 低リソース環境でのソーシャルバイアスとデバイアス手法の評価
- Authors: Ej Zhou, Weiming Lu,
- Abstract要約: 言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。
本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
- 参考スコア(独自算出の注目度): 8.478711218359532
- License:
- Abstract: Social bias in language models can potentially exacerbate social inequalities. Despite it having garnered wide attention, most research focuses on English data. In a low-resource scenario, the models often perform worse due to insufficient training data. This study aims to leverage high-resource language corpora to evaluate bias and experiment with debiasing methods in low-resource languages. We evaluated the performance of recent multilingual models in five languages: English (\textsc{eng}), Chinese (\textsc{zho}), Russian (\textsc{rus}), Indonesian (\textsc{ind}) and Thai (\textsc{tha}), and analyzed four bias dimensions: \textit{gender}, \textit{religion}, \textit{nationality}, and \textit{race-color}. By constructing multilingual bias evaluation datasets, this study allows fair comparisons between models across languages. We have further investigated three debiasing methods-\texttt{CDA}, \texttt{Dropout}, \texttt{SenDeb}-and demonstrated that debiasing methods from high-resource languages can be effectively transferred to low-resource ones, providing actionable insights for fairness research in multilingual NLP.
- Abstract(参考訳): 言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。
広く注目を集めているにもかかわらず、ほとんどの研究は英語のデータに焦点を当てている。
低リソースのシナリオでは、トレーニングデータが不十分なため、モデルの性能が悪化することが多い。
本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
我々は、最近の多言語モデルの性能を、英語(\textsc{eng})、中国語(\textsc{zho})、ロシア語(\textsc{rus})、インドネシア語(\textsc{ind})、タイ語(\textsc{tha})の5言語で評価し、4つのバイアス次元( \textit{gender}, \textit{religion}, \textit{nationality}, \textit{race-color})を分析した。
本研究は,多言語バイアス評価データセットの構築により,言語間のモデル間の公正な比較を可能にする。
さらに,3つのデバイアス化手法-\texttt{CDA}, \texttt{Dropout}, \texttt{SenDeb}-を検討し,マルチリンガルNLPにおけるフェアネス研究のための実用的な洞察を提供するとともに,高リソース言語からのデバイアス化手法を効果的に低リソースに移行できることを実証した。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Investigating Bias in Multilingual Language Models: Cross-Lingual
Transfer of Debiasing Techniques [3.9673530817103333]
脱バイアス技術の言語間移動は実現可能であるだけでなく、有望な結果をもたらす。
我々の分析では、CrowS-Pairsデータセットの翻訳を用いて、SentenceDebiasを異なる言語にまたがる最高のテクニックであると同定した。
論文 参考訳(メタデータ) (2023-10-16T11:43:30Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Average Is Not Enough: Caveats of Multilingual Evaluation [0.0]
このような偏見を検出するためには,比較言語学による質的分析が必要であると論じる。
本稿では,本研究の結果が言語的に偏りがあることを示すとともに,onEL型データベースに基づく可視化が検出可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T18:23:42Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。