論文の概要: Multi-Reward GRPO Fine-Tuning for De-biasing Large Language Models: A Study Based on Chinese-Context Discrimination Data
- arxiv url: http://arxiv.org/abs/2511.06023v1
- Date: Sat, 08 Nov 2025 14:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.712008
- Title: Multi-Reward GRPO Fine-Tuning for De-biasing Large Language Models: A Study Based on Chinese-Context Discrimination Data
- Title(参考訳): 大規模言語モデルの非バイアス化のためのマルチリワードGRPOファインタニング:中国語-文脈識別データに基づく検討
- Authors: Deng Yixuan, Ji Xiaoqiang,
- Abstract要約: 大規模言語モデル(LLM)は、社会的ステレオタイプを反映した暗黙の偏見と差別傾向を示すことが多い。
本稿では,LLMを倫理的・偏見のない行動に向けて微調整するマルチリワードグループ相対政策最適化フレームワークを提案する。
実験の結果, 偏差強度は著しく低下し, 非識別基準との整合性が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often exhibit implicit biases and discriminatory tendencies that reflect underlying social stereotypes. While recent alignment techniques such as RLHF and DPO have mitigated some of these issues, they remain limited in addressing culturally specific and multi-dimensional forms of discrimination. This paper proposes a Multi-Reward Group Relative Policy Optimization (GRPO) framework to fine-tune LLMs toward ethical and bias-free behavior. Our approach constructs a synthetic English-language dataset derived from Chinese-context discrimination categories, including regional, ethnic, and occupational biases. Each instance is paired with both neutral and biased responses to train a reward model based on DeBERTa-v3, which provides multi-dimensional reward signals capturing fairness, neutrality, and linguistic quality. The trained reward model then guides GRPO fine-tuning to optimize model outputs along these ethical dimensions. Experimental results demonstrate significant reductions in bias intensity and improved alignment with non-discriminatory standards without compromising fluency or informativeness. This study highlights the effectiveness of GRPO-based multi-reward optimization for de-biasing LLMs and offers a replicable framework for cultural-contextual ethical alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会的ステレオタイプを反映した暗黙の偏見と差別傾向を示すことが多い。
RLHFやDPOといった最近のアライメント技術はこれらの問題のいくつかを緩和しているが、文化的に具体的かつ多次元的な識別形式に対処することには限界がある。
本稿では, 倫理的・偏見のない行動に対して, LLMを微調整するためのマルチリワードグループ相対政策最適化(GRPO)フレームワークを提案する。
提案手法は, 地域, 民族, 職業的偏見を含む, 中国語・コンテクスト識別カテゴリーから派生した合成英語データセットを構築した。
各インスタンスは、中立性、中立性、言語品質をキャプチャする多次元報酬信号を提供するDeBERTa-v3に基づいて報酬モデルをトレーニングするために、中立応答とバイアス応答の両方とペアリングされる。
トレーニングされた報酬モデルはGRPOの微調整をガイドし、これらの倫理的次元に沿ってモデル出力を最適化する。
実験の結果, 偏差強度は著しく低下し, 非識別基準との整合性が向上した。
本研究は,LLMの非バイアス化に対するGRPOに基づくマルチリワード最適化の有効性を強調し,文化的・文脈的倫理的アライメントのための再現可能なフレームワークを提供する。
関連論文リスト
- SESGO: Spanish Evaluation of Stereotypical Generative Outputs [1.1549572298362782]
本稿では,多言語大言語モデル(LLM)におけるバイアス評価における限界ギャップについて論じる。
現在の評価は、主に米国英語中心であり、他の言語や文化の文脈で潜在的に危害が及ばないままである。
教科学習における社会的偏見を検出するための,新しい文化的な枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-03T14:04:51Z) - Do Large Language Models Understand Morality Across Cultures? [0.5356944479760104]
本研究では,大規模言語モデルが道徳的視点における異文化間差異や類似性をどの程度捉えているかを検討する。
以上の結果から,現在のLLMは多文化的モラル変動の完全なスペクトルを再現できないことが示唆された。
これらの知見は, LLMのバイアス軽減と文化的代表性向上に向けた, より堅牢なアプローチの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-28T20:25:36Z) - Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Unveiling and Mitigating Bias in Large Language Model Recommendations: A Path to Fairness [3.5297361401370044]
本研究では,LLMに基づくレコメンデーションシステムとバイアスの相互作用について検討する。
音楽、歌、書籍のレコメンデーションなど、様々な民族や文化グループに重点を置いている。
我々の発見によると、これらのシステムのバイアスは深く根深いが、迅速なエンジニアリングのような単純な介入さえも、それを大幅に減らすことができる。
論文 参考訳(メタデータ) (2024-09-17T01:37:57Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。