論文の概要: Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting
- arxiv url: http://arxiv.org/abs/2504.11183v2
- Date: Mon, 14 Jul 2025 13:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:07.043126
- Title: Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting
- Title(参考訳): Bias Beyond English: 低リソース環境でのソーシャルバイアスとデバイアス手法の評価
- Authors: Ej Zhou, Weiming Lu,
- Abstract要約: 言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。
本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
- 参考スコア(独自算出の注目度): 8.478711218359532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social bias in language models can potentially exacerbate social inequalities. Despite it having garnered wide attention, most research focuses on English data. In a low-resource scenario, the models often perform worse due to insufficient training data. This study aims to leverage high-resource language corpora to evaluate bias and experiment with debiasing methods in low-resource languages. We evaluated the performance of recent multilingual models in five languages: English, Chinese, Russian, Indonesian and Thai, and analyzed four bias dimensions: gender, religion, nationality, and race-color. By constructing multilingual bias evaluation datasets, this study allows fair comparisons between models across languages. We have further investigated three debiasing methods-CDA, Dropout, SenDeb-and demonstrated that debiasing methods from high-resource languages can be effectively transferred to low-resource ones, providing actionable insights for fairness research in multilingual NLP.
- Abstract(参考訳): 言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。
広く注目を集めているにもかかわらず、ほとんどの研究は英語のデータに焦点を当てている。
低リソースのシナリオでは、トレーニングデータが不十分なため、モデルの性能が悪化することが多い。
本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
我々は、近年の多言語モデル(英語、中国語、ロシア語、インドネシア語、タイ語)のパフォーマンスを評価し、性別、宗教、国籍、人種カラーの4つのバイアス次元を分析した。
本研究は,多言語バイアス評価データセットの構築により,言語間のモデル間の公正な比較を可能にする。
さらに,CDA,Dropout,SenDebの3つのデバイアス法について検討し,高リソース言語からのデバイアス法を低リソース言語に効果的に移行できることを実証し,多言語NLPにおけるフェアネス研究のための実用的な洞察を提供する。
関連論文リスト
- From Measurement to Mitigation: Exploring the Transferability of Debiasing Approaches to Gender Bias in Maltese Language Models [0.0]
本研究では,マルタ語モデルへのデバイアス法の適用可能性について検討する。
我々は、CrowS-PairsやSEATといったベンチマークと、デバイアス法、デファクトデータ拡張、ドロップアウト正規化、オートデバイアス、GuiDebiasといったデバイアス手法を用いています。
本研究は,既存のバイアス緩和手法を言語学的に複雑な言語に適用する上での課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-03T19:45:01Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Investigating Bias in Multilingual Language Models: Cross-Lingual
Transfer of Debiasing Techniques [3.9673530817103333]
脱バイアス技術の言語間移動は実現可能であるだけでなく、有望な結果をもたらす。
我々の分析では、CrowS-Pairsデータセットの翻訳を用いて、SentenceDebiasを異なる言語にまたがる最高のテクニックであると同定した。
論文 参考訳(メタデータ) (2023-10-16T11:43:30Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Average Is Not Enough: Caveats of Multilingual Evaluation [0.0]
このような偏見を検出するためには,比較言語学による質的分析が必要であると論じる。
本稿では,本研究の結果が言語的に偏りがあることを示すとともに,onEL型データベースに基づく可視化が検出可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T18:23:42Z) - An Analysis of Social Biases Present in BERT Variants Across Multiple
Languages [0.0]
多様な言語からなる単言語BERTモデルにおけるバイアスについて検討する。
文の擬似類似度に基づいて,任意のバイアスを測定するテンプレートベースの手法を提案する。
偏見探索の現在の手法は言語に依存していると結論付けている。
論文 参考訳(メタデータ) (2022-11-25T23:38:08Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。