論文の概要: DECASTE: Unveiling Caste Stereotypes in Large Language Models through Multi-Dimensional Bias Analysis
- arxiv url: http://arxiv.org/abs/2505.14971v1
- Date: Tue, 20 May 2025 23:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.789478
- Title: DECASTE: Unveiling Caste Stereotypes in Large Language Models through Multi-Dimensional Bias Analysis
- Title(参考訳): DECASTE:多次元バイアス解析による大規模言語モデルにおける鋳型ステレオタイプの作成
- Authors: Prashanth Vijayaraghavan, Soroush Vosoughi, Lamogha Chizor, Raya Horesh, Rogerio Abreu de Paula, Ehsan Degan, Vandana Mukherjee,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
LLMは、民族、性別、宗教に基づくものなど、有害な社会的偏見を反映し、永続することが示されている。
我々は,LLMにおける暗黙的および明示的なキャストバイアスを検知し,評価するための新しいフレームワークであるDECASTEを提案する。
- 参考スコア(独自算出の注目度): 20.36241144630387
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) have revolutionized natural language processing (NLP) and expanded their applications across diverse domains. However, despite their impressive capabilities, LLMs have been shown to reflect and perpetuate harmful societal biases, including those based on ethnicity, gender, and religion. A critical and underexplored issue is the reinforcement of caste-based biases, particularly towards India's marginalized caste groups such as Dalits and Shudras. In this paper, we address this gap by proposing DECASTE, a novel, multi-dimensional framework designed to detect and assess both implicit and explicit caste biases in LLMs. Our approach evaluates caste fairness across four dimensions: socio-cultural, economic, educational, and political, using a range of customized prompting strategies. By benchmarking several state-of-the-art LLMs, we reveal that these models systematically reinforce caste biases, with significant disparities observed in the treatment of oppressed versus dominant caste groups. For example, bias scores are notably elevated when comparing Dalits and Shudras with dominant caste groups, reflecting societal prejudices that persist in model outputs. These results expose the subtle yet pervasive caste biases in LLMs and emphasize the need for more comprehensive and inclusive bias evaluation methodologies that assess the potential risks of deploying such models in real-world contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自然言語処理(NLP)に革命をもたらし、その応用範囲を様々な領域に広げている。
しかし、その印象的な能力にもかかわらず、LLMは民族性、性別、宗教に基づくものを含む有害な社会的偏見を反映し、永続させることが示されている。
特にダリタスやシュドラスのようなインドで疎外された鋳造集団に対する、鋳物に基づく偏見の強化が重要で未調査の課題である。
本稿では,LLMにおける暗黙的および明示的なキャストバイアスの検出と評価を目的とした,新しい多次元フレームワークであるDECASTEを提案する。
提案手法は, 社会文化, 経済, 教育, 政治の4分野にわたるキャストフェアネスを, カスタマイズされたプロンプト戦略を用いて評価する。
いくつかの最先端のLCMをベンチマークすることで、これらのモデルがキャストバイアスを系統的に強化し、抑圧されたキャスト群と支配的なキャスト群の処理において顕著な相違が観察されることを明らかにした。
例えば、ダリッツとシュドラスを支配的なキャスト群と比較すると、モデル出力に持続する社会的偏見を反映してバイアススコアが顕著に上昇する。
これらの結果は、LLMの微妙ながら広く普及している鋳型バイアスを明らかにし、そのようなモデルを現実世界のコンテキストに展開する潜在的なリスクを評価するための包括的かつ包括的バイアス評価手法の必要性を強調している。
関連論文リスト
- Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Understanding Intrinsic Socioeconomic Biases in Large Language Models [4.276697874428501]
本稿では,社会経済的バイアスを定量化するために,100万の英語文からなる新しいデータセットを提案する。
以上の結果から,GPT-2のような確立されたモデルと,Llama 2やFalconのような最先端のモデルの両方において,社会経済的バイアスが広範にあることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-28T23:54:44Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Indian-BhED: A Dataset for Measuring India-Centric Biases in Large Language Models [18.201326983938014]
大規模言語モデル(LLM)は社会的バイアスを符号化し、ユーザを表現上の害に晒す。
本研究は,LLMにおけるステレオタイプバイアスを,そのタイプデータセットであるIndian-BhEDを用いて,インド中心のフレームに従って定量化する。
テストされたLLMの大多数は、インドの文脈でステレオタイプを出力する確率が強いことが判明した。
論文 参考訳(メタデータ) (2023-09-15T17:38:41Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。