論文の概要: Mitigating Social Bias in English and Urdu Language Models Using PRM-Guided Candidate Selection and Sequential Refinement
- arxiv url: http://arxiv.org/abs/2512.09854v1
- Date: Wed, 10 Dec 2025 17:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.616419
- Title: Mitigating Social Bias in English and Urdu Language Models Using PRM-Guided Candidate Selection and Sequential Refinement
- Title(参考訳): PRM-Guided Candidate Selection and Sequential Refinement を用いた英語とウルドゥー語モデルにおけるソーシャルバイアスの緩和
- Authors: Muneeb Ur Raheem Khan,
- Abstract要約: 大規模言語モデル(LLM)は、人間のコミュニケーション、意思決定支援、コンテンツ作成、情報検索をますます仲介する。
特に社会に敏感な言語によって引き起こされた場合、これらのシステムはしばしばバイアスやステレオタイプな内容を生成する。
本稿では,再トレーニングや微調整を回避し,モデル出力を直接操作する手法である推論時バイアス緩和の総合的研究について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) increasingly mediate human communication, decision support, content creation, and information retrieval. Despite impressive fluency, these systems frequently produce biased or stereotypical content, especially when prompted with socially sensitive language. A growing body of research has demonstrated that such biases disproportionately affect low-resource languages, where training data is limited and culturally unrepresentative. This paper presents a comprehensive study of inference-time bias mitigation, a strategy that avoids retraining or fine-tuning and instead operates directly on model outputs. Building on preference-ranking models (PRMs), we introduce a unified evaluation framework comparing three methods: (1) baseline single-word generation, (2) PRM-Select best-of-N sampling, and (3) PRM-Sequential refinement guided by PRM critiques. We evaluate these techniques across 200 English prompts and their Urdu counterparts, designed to reflect socio-cultural contexts relevant to gender, ethnicity, religion, nationality, disability, profession, age, and socioeconomic categories. Using GPT-3.5 as a candidate generator and GPT-4o-mini as a PRM-based bias and utility scorer, we provide an extensive quantitative analysis of bias reduction, utility preservation, and cross-lingual disparities. Our findings show: (a) substantial gains over the baseline for both languages; (b) consistently lower fairness scores for Urdu across all methods, highlighting structural inequities in multilingual LLM training; and (c) distinct improvement trajectories between PRM-Select and PRM-Sequential. The study contributes an extensible methodology, interpretable metrics, and cross-lingual comparisons that can support future work on fairness evaluation in low-resource languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間のコミュニケーション、意思決定支援、コンテンツ作成、情報検索をますます仲介する。
特に社会に敏感な言語によって引き起こされた場合、これらのシステムはしばしばバイアスやステレオタイプな内容を生成する。
研究機関は、こうしたバイアスが低リソース言語に不均等に影響を与え、トレーニングデータが制限され、文化的に表現できないことを実証している。
本稿では,再トレーニングや微調整を回避し,モデル出力を直接操作する手法である推論時バイアス緩和の総合的研究について述べる。
本研究では,(1)ベースライン単語生成,(2)PRM-Select best-of-N sample,(3)PRM-Sequential refinement(PRM-Sequential refinement)の3つの手法を比較した統一評価フレームワークを提案する。
我々は、ジェンダー、民族性、宗教、国籍、障害、職業、年齢、社会経済カテゴリーに関連する社会文化的文脈を反映した200の英語プロンプトとそれらのウルドゥー語プロンプトにまたがるこれらの技術を評価する。
GPT-3.5 を候補生成器とし,GPT-4o-mini を PRM ベースのバイアスおよびユーティリティスコアラとして用いることにより,バイアス低減,ユーティリティ保存,言語間差異の定量的解析を行った。
私たちの発見は以下のとおりです。
(a)両言語のベースラインを大きく上回っている。
b) ウルドゥーの全ての方法に対する公平度を一貫して低くし、多言語LLM訓練における構造的不等式を強調している。
c) PRM-Select と PRM-Sequential の異なる改良軌道
この研究は、拡張可能な方法論、解釈可能なメトリクス、および低リソース言語におけるフェアネス評価の今後の研究を支援する言語間比較に貢献する。
関連論文リスト
- I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - From Measurement to Mitigation: Exploring the Transferability of Debiasing Approaches to Gender Bias in Maltese Language Models [0.0]
本研究では,マルタ語モデルへのデバイアス法の適用可能性について検討する。
我々は、CrowS-PairsやSEATといったベンチマークと、デバイアス法、デファクトデータ拡張、ドロップアウト正規化、オートデバイアス、GuiDebiasといったデバイアス手法を用いています。
本研究は,既存のバイアス緩和手法を言語学的に複雑な言語に適用する上での課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-03T19:45:01Z) - Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting [8.478711218359532]
言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。
本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
論文 参考訳(メタデータ) (2025-04-15T13:40:22Z) - Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、プロンプトによって記述されたユーザー属性とインプットの関係を測定する。
本研究では, 子どもの就寝時間, ユーザ・ペルソナ, 英語学習演習の3つの文脈から, RUTEdの類似性を評価する。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。