論文の概要: Operationalizing Pluralistic Values in Large Language Model Alignment Reveals Trade-offs in Safety, Inclusivity, and Model Behavior
- arxiv url: http://arxiv.org/abs/2511.14476v1
- Date: Tue, 18 Nov 2025 13:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.128106
- Title: Operationalizing Pluralistic Values in Large Language Model Alignment Reveals Trade-offs in Safety, Inclusivity, and Model Behavior
- Title(参考訳): 大規模言語モデルアライメントにおける多元的価値の運用
- Authors: Dalia Ali, Dora Zhao, Allison Koenecke, Orestis Papakyriakopoulos,
- Abstract要約: 大規模言語モデル(LLM)は、人間の価値観の安全性と整合性のために人間のフィードバックを用いて、ますます訓練されている。
本研究では,複数値の組み込みがLLMの挙動にどう影響するかを,アライメントパイプラインにおける人口変動と設計パラメータを体系的に評価することによって検討する。
- 参考スコア(独自算出の注目度): 9.90941081429899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) are increasingly trained using human feedback for safety and alignment with human values, alignment decisions often overlook human social diversity. This study examines how incorporating pluralistic values affects LLM behavior by systematically evaluating demographic variation and design parameters in the alignment pipeline. We collected alignment data from US and German participants (N = 1,095, 27,375 ratings) who rated LLM responses across five dimensions: Toxicity, Emotional Awareness (EA), Sensitivity, Stereotypical Bias, and Helpfulness. We fine-tuned multiple Large Language Models and Large Reasoning Models using preferences from different social groups while varying rating scales, disagreement handling methods, and optimization techniques. The results revealed systematic demographic effects: male participants rated responses 18% less toxic than female participants; conservative and Black participants rated responses 27.9% and 44% more emotionally aware than liberal and White participants, respectively. Models fine-tuned on group-specific preferences exhibited distinct behaviors. Technical design choices showed strong effects: the preservation of rater disagreement achieved roughly 53% greater toxicity reduction than majority voting, and 5-point scales yielded about 22% more reduction than binary formats; and Direct Preference Optimization (DPO) consistently outperformed Group Relative Policy Optimization (GRPO) in multi-value optimization. These findings represent a preliminary step in answering a critical question: How should alignment balance expert-driven and user-driven signals to ensure both safety and fair representation?
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全性と人間の価値観との整合性のために人間のフィードバックを用いて、ますます訓練されているが、アライメントの決定はしばしば人間の社会的多様性を見落としている。
本研究では,複数値の組み込みがLLMの挙動にどう影響するかを,アライメントパイプラインにおける人口変動と設計パラメータを体系的に評価することによって検討する。
毒性,情緒的意識 (EA), 感性, ステレオタイプ的バイアス, ヘルプフルネスの5次元にわたるLCM反応を評価した米国およびドイツの参加者(N=1,095, 27,375)のアライメントデータを収集した。
異なる評価尺度,不一致処理手法,最適化手法を用いて,複数の大規模言語モデルと大規模推論モデルを微調整した。
結果は、男性参加者が女性参加者よりも18%、保守的参加者が27.9%、黒人参加者が44%、リベラル参加者が44%であった。
グループ固有の嗜好に基づいて微調整されたモデルは、異なる振る舞いを示した。
技術設計の選択は強い影響を示した: レーダの不一致の保存は、多数決よりも約53%の毒性低下を達成し、5点のスケールはバイナリフォーマットよりも約22%の減少を達成し、そして多値最適化におけるグループ相対政策最適化(GRPO)を一貫して上回った。
安全と公正な表現の両方を保証するために、専門家主導の信号とユーザ主導の信号のバランスをとるには、どうすればよいのか?
関連論文リスト
- Multi-Reward GRPO Fine-Tuning for De-biasing Large Language Models: A Study Based on Chinese-Context Discrimination Data [0.0]
大規模言語モデル(LLM)は、社会的ステレオタイプを反映した暗黙の偏見と差別傾向を示すことが多い。
本稿では,LLMを倫理的・偏見のない行動に向けて微調整するマルチリワードグループ相対政策最適化フレームワークを提案する。
実験の結果, 偏差強度は著しく低下し, 非識別基準との整合性が向上した。
論文 参考訳(メタデータ) (2025-11-08T14:33:21Z) - When Personalization Meets Reality: A Multi-Faceted Analysis of Personalized Preference Learning [39.22503425640312]
ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、一般的に、多様な人間の価値観や少数派視点を見越して、ユーザ間で均質な好みを仮定する。
本稿では,多面的評価フレームワークを提案する。このフレームワークは,性能だけでなく,不公平性,意図しない効果,適応性など,様々なレベルの嗜好のばらつきを計測する。
これらの知見は、より効果的で包括的な選好学習システムの開発を進めるための全体論的評価アプローチの批判的必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-02-26T14:14:58Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。