論文の概要: Open-DeBias: Toward Mitigating Open-Set Bias in Language Models
- arxiv url: http://arxiv.org/abs/2509.23805v1
- Date: Sun, 28 Sep 2025 11:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.459058
- Title: Open-DeBias: Toward Mitigating Open-Set Bias in Language Models
- Title(参考訳): Open-DeBias: 言語モデルにおけるオープンセットバイアスの緩和
- Authors: Arti Rani, Shweta Singh, Nihar Ranjan Sahoo, Gaurav Kumar Nayak,
- Abstract要約: 我々は,テキストベースの質問応答タスクにおいて,オープンセットバイアス検出と緩和という新たな課題に取り組む。
OpenBiasBenchは、様々なカテゴリやサブグループにまたがるバイアスを評価するために設計されたベンチマークである。
また,新しいデータ効率,パラメータ効率のデバイアス法であるOpen-DeBiasを提案する。
- 参考スコア(独自算出の注目度): 6.958242323649994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success on question answering (QA) tasks, yet they often encode harmful biases that compromise fairness and trustworthiness. Most existing bias mitigation approaches are restricted to predefined categories, limiting their ability to address novel or context-specific emergent biases. To bridge this gap, we tackle the novel problem of open-set bias detection and mitigation in text-based QA. We introduce OpenBiasBench, a comprehensive benchmark designed to evaluate biases across a wide range of categories and subgroups, encompassing both known and previously unseen biases. Additionally, we propose Open-DeBias, a novel, data-efficient, and parameter-efficient debiasing method that leverages adapter modules to mitigate existing social and stereotypical biases while generalizing to unseen ones. Compared to the state-of-the-art BMBI method, Open-DeBias improves QA accuracy on BBQ dataset by nearly $48\%$ on ambiguous subsets and $6\%$ on disambiguated ones, using adapters fine-tuned on just a small fraction of the training data. Remarkably, the same adapters, in a zero-shot transfer to Korean BBQ, achieve $84\%$ accuracy, demonstrating robust language-agnostic generalization. Through extensive evaluation, we also validate the effectiveness of Open-DeBias across a broad range of NLP tasks, including StereoSet and CrowS-Pairs, highlighting its robustness, multilingual strength, and suitability for general-purpose, open-domain bias mitigation. The project page is available at: https://sites.google.com/view/open-debias25
- Abstract(参考訳): 大きな言語モデル(LLM)は、質問応答(QA)タスクにおいて顕著な成功を収めていますが、公平さと信頼性を損なう有害なバイアスをしばしばエンコードします。
既存のバイアス緩和アプローチの多くは、定義済みのカテゴリに制限されており、新規またはコンテキスト固有の創発的バイアスに対処する能力を制限する。
このギャップを埋めるために、テキストベースのQAにおいて、オープンセットバイアス検出と緩和という新たな問題に取り組む。
OpenBiasBenchは、様々なカテゴリやサブグループにまたがる偏見を評価するために設計された総合的なベンチマークで、既知の偏見と以前は見えない偏見の両方を包含する。
さらに,新しい,データ効率,パラメータ効率のデバイアス手法であるOpen-DeBiasを提案する。
最先端のBMBI手法と比較して、Open-DeBiasはBBQデータセットのQA精度を、曖昧な部分集合に対して4,8\%、曖昧な部分集合に対して6,6\%で改善する。
注目すべきは、同じアダプタが、ゼロショットで韓国のBBQに転送され、84\%の精度を達成し、堅牢な言語に依存しない一般化を実証していることだ。
また,StereoSet や CrowS-Pairs など幅広い NLP タスクにおける Open-DeBias の有効性を検証し,その堅牢性,多言語的強度,汎用的・オープン領域バイアス緩和への適合性を強調した。
プロジェクトのページは、https://sites.google.com/view/open-debias25で公開されている。
関連論文リスト
- Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文 参考訳(メタデータ) (2025-03-12T10:06:03Z) - Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings [13.686732204665738]
既存のBBQデータセットを,補間質問型と短解質問型を組み込むことで拡張する。
我々の発見によると、LSMは年齢や社会経済的地位など、特定の保護された属性に対してより偏りのある反応を生み出す。
偏見をゼロショット、少数ショット、チェーン・オブ・シントを組み合わせることで、偏見のレベルを約0。
論文 参考訳(メタデータ) (2024-12-09T01:29:47Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。