論文の概要: AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
- arxiv url: http://arxiv.org/abs/2509.02133v1
- Date: Tue, 02 Sep 2025 09:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.984018
- Title: AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models
- Title(参考訳): AMBEDKAR-言語モデルのロバストな構成アライメントのための知識増強を用いた復号手法による多段階バイアス除去
- Authors: Snehasis Mukhopadhyay, Aryan Kasat, Shivam Dubey, Rahul Karthikeyan, Dhruv Sood, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータに存在する社会的バイアスを必然的に反映し、有害または偏見的なアウトプットをもたらす。
インド憲法の建築家であるB. R. Ambedkar博士の平等主義的ビジョンにインスパイアされたフレームワークであるABEDKARを提案する。
我々の手法は、基準線に比べて最大26.41パーセントのバイアスを絶対的に減少させる。
- 参考スコア(独自算出の注目度): 16.20250366211724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can inadvertently reflect societal biases present in their training data, leading to harmful or prejudiced outputs. In the Indian context, our empirical evaluations across a suite of models reveal that biases around caste and religion are particularly salient. Yet, most existing mitigation strategies are Western-centric and fail to address these local nuances. We propose AMBEDKAR, a framework inspired by the egalitarian vision of Dr B. R. Ambedkar, architect of the Indian Constitution, to guide LLM outputs toward fairness, neutrality, and inclusion in line with Articles 14 to 17. Our approach introduces a Constitution-Aware Decoding Layer, guided by the AI Constitution of India and applied only at inference time, without any parameter updates to the base model. We incorporate a speculative decoding algorithm that proactively reduces casteist and communal bias during generation. This mitigation layer operates directly within the decoding process, avoiding changes to model internals and lowering the computational and infrastructural costs associated with retraining. We reinterpret speculative decoding not merely as an efficiency tool but as a mechanism for fairness. In this framework, a Small Language Model (SLM) acts as a potentially biased generator, while a constitutionally guided Large Language Model (LLM) serves as the verifier. Rather than accelerating generation, the LLM enforces bias-robust trajectories in the SLM outputs. This inversion of roles gives rise to a fairness-by-speculation paradigm. Our approach yields an absolute reduction of bias up to 26.41 percent compared to baseline. Our source code, datasets, and results are available at https://anonymous.4open.science/r/AMBEDKAR-983B/
- Abstract(参考訳): 大規模言語モデル(LLM)は、トレーニングデータに存在する社会的バイアスを必然的に反映し、有害または偏見的なアウトプットをもたらす。
インドの文脈では、一連のモデルに対する我々の経験的評価は、カーストと宗教に関する偏見が特に顕著であることを示している。
しかし、既存の緩和戦略のほとんどは西洋中心であり、これらの局地的なニュアンスに対処することができない。
インド憲法の建築家であるB. R. Ambedkar博士の平等主義的ビジョンにインスパイアされた枠組みであるAMBEDKARを提案する。
提案手法では,AIコンスティチューション・オブ・インディア(AI Constitution of India)によってガイドされ,ベースモデルにパラメータを更新することなく,推論時にのみ適用されるコンスティチューション・アウェア・デコーディング・レイヤを導入する。
提案手法は投機的復号化アルゴリズムを組み込み, 生成時のキャストおよび共用バイアスを積極的に低減する。
この緩和層はデコードプロセス内で直接動作し、モデル内部の変更を回避し、再訓練に伴う計算コストとインフラコストを下げる。
我々は、投機的復号化を効率ツールとしてだけでなく、公平性のメカニズムとして再解釈する。
このフレームワークでは、Small Language Model (SLM) が潜在的なバイアスのあるジェネレータとして機能し、LLM(Large Language Model) がバリデータとして機能する。
LLMは生成を加速するのではなく、SLM出力にバイアスロスト軌道を強制する。
この役割の逆転は、フェアネス・バイ・スペキュレーションのパラダイムを生み出す。
我々の手法は、基準線に比べて最大26.41パーセントのバイアスを絶対的に減少させる。
ソースコード、データセット、結果はhttps://anonymous.4open.science/r/AMBEDKAR-983B/で公開されています。
関連論文リスト
- SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - LIBRA: Measuring Bias of Large Language Model from a Local Context [9.612845616659776]
大規模言語モデル(LLM)は、かなり高度な自然言語処理アプリケーションを持っている。
しかし、彼らの普及した利用は、特定の社会集団の実用性や害を減少させる固有のバイアスに関する懸念を提起する。
本研究は,これらの制約を,バイアス測定のためのローカル統合バイアス認識評価フレームワーク(LIBRA)を用いて解決する。
論文 参考訳(メタデータ) (2025-02-02T04:24:57Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Detecting Bias in Large Language Models: Fine-tuned KcBERT [0.0]
我々は、このような害を社会的な偏見として定義し、韓国のコメントに微調整されたモデルで、民族、性別、人種的偏見を評価する。
我々の貢献は、言語に依存した特徴により、韓国語モデルに社会的バイアスが存在することを示すことである。
論文 参考訳(メタデータ) (2024-03-16T02:27:19Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Conceptor-Aided Debiasing of Large Language Models [1.0435741631709405]
事前訓練された大規模言語モデル(LLM)は、トレーニングコーパスの社会的バイアスを反映している。
我々は,BERT や GPT などの LLM のバイアス部分空間を同定し,除去するためのソフトプロジェクション手法である概念を用いた。
提案手法は,(1)NOT操作による後処理によるバイアス部分空間の投影,(2)新しいアーキテクチャ,CI-BERT (Conceptor-intervened BERT) を提案する。
論文 参考訳(メタデータ) (2022-11-20T21:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。