論文の概要: Compositional Bias Control in Large Language Models: Preference Learning Fails, Supervision Succeeds
- arxiv url: http://arxiv.org/abs/2510.22084v1
- Date: Fri, 24 Oct 2025 23:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.813043
- Title: Compositional Bias Control in Large Language Models: Preference Learning Fails, Supervision Succeeds
- Title(参考訳): 大規模言語モデルにおける構成バイアス制御: 優先学習障害, スーパービジョン
- Authors: Atij Mahesh,
- Abstract要約: 大規模言語モデル (LLMs) は、職業中立の文脈においても男女ステレオタイプ言語を生成する。
バイアス緩和のための6つの制御手法を比較する: プロンプトオンリー、ジェネレータ、DFAベースのCtrl-Gデコーディング、スーパーバイザードファインチューニング(SFT)、直接選好最適化(DPO)、反復ヌルスペース投影(INLP)。
SFT は 99.87 +- 0.15% のコンプライアンスと高い語彙の多様性を達成するが、DPO は同様の訓練安定性にもかかわらず 4.53 +- 0.82% で失敗する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) still produce gender-stereotyped language even in occupation-neutral contexts that reflect deep societal biases (Rudinger et al., 2018). To address this, prior work has proposed prompting, constrained decoding (Dathathri et al., 2020; Zhou et al., 2024), post-processing, and fine-tuning-based alignment (Rafailov et al., 2023; Ravfogel et al., 2022). However, the comparative efficacy and learning dynamics remain little understood. We report a comparative analysis of six control techniques for bias mitigation: prompt-only, generate-and-filter, DFA-based Ctrl-G decoding, Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and Iterative Nullspace Projection (INLP). We evaluate each method on a compositional constraint task. This task requires generating sentences that contain at least one agentic and one communal descriptor for each of the twenty Winogender-derived occupations. We quantify trade-offs between control strength and naturalness with evaluations of constraint compliance, lexical diversity, and fluency. Our results reveal key contrasts among the methods: SFT achieves 99.87 +- 0.15% compliance and high lexical diversity, while DPO, despite similar training stability, fails at 4.53 +- 0.82%. Ctrl-G guarantees perfect compliance, but at the cost of severely reduced fluency and diversity. Preference-based learning fundamentally differs: it cannot satisfy compositional constraints, as binary preference signals encode ranking, not logical conjunctions. Only explicit positive supervision enables mitigation of compositional biases; preference-based alignment fails to generalize logical structures, underscoring the limitations of preference learning and the necessity of explicit supervision for fair and fluent controlled generation.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、深い社会的偏見を反映した職業中立の文脈においても、依然としてジェンダーステレオタイプ言語を生み出している(Rudinger et al , 2018)。
これに対処するため、事前の作業では、プロンプト、制約付き復号法(Dathathri et al , 2020; Zhou et al , 2024)、後処理、微調整に基づくアライメント(Rafailov et al , 2023; Ravfogel et al , 2022)が提案されている。
しかし、比較有効性や学習のダイナミクスはほとんど理解されていない。
本稿では,Adapter-only, Gene-and-filter, DFA-based Ctrl-G decoding, Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Iterative Nullspace Projection (INLP)の6種類のバイアス緩和手法の比較分析を行った。
構成制約タスクにおける各手法の評価を行う。
このタスクは、20のウィノゲンダー由来の職業ごとに少なくとも1つのエージェントと1つのコミュレート記述子を含む文を生成する必要がある。
制約コンプライアンス,語彙多様性,流布度の評価により,制御強度と自然性のトレードオフを定量化する。
SFTは99.87+-0.15%のコンプライアンスと高い語彙多様性を達成し、DPOは同様の訓練安定性にもかかわらず4.53+-0.82%で失敗する。
Ctrl-Gは完全なコンプライアンスを保証するが、レイテンシと多様性が著しく低下する。
優先順位に基づく学習は、論理的結合ではなく、二進選好信号がランク付けを符号化するので、構成上の制約を満たすことができない。
明示的な正の監督だけが構成バイアスの緩和を可能にする; 嗜好に基づくアライメントは論理構造を一般化するのに失敗し、選好学習の限界と公正で流動的な生成のための明示的な監督の必要性を強調する。
関連論文リスト
- From Literal to Liberal: A Meta-Prompting Framework for Eliciting Human-Aligned Exception Handling in Large Language Models [0.3946915822335988]
エージェントAIシステムの推論エンジンとして,大規模言語モデル(LLM)がますます普及している。
明確な規則に固執し、人間の常識や意図に反する決定を下す。
本稿では,LLMにおけるヒューマンアラインな例外処理をゼロショット方式で導入するルール・インテント・ディチネンション(RID)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-10-14T16:42:52Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - Self-Error Adjustment: Theory and Practice of Balancing Individual Performance and Diversity in Ensemble Learning [4.114446284816968]
アンサンブル学習は、複数のベース学習者からの予測を集約することで、パフォーマンスを高める。
BaggingやBoostingといった従来の手法は、ランダム性を通じて多様性を促進するが、精度と多様性のトレードオフを正確に制御するものではない。
アンサンブルエラーを2つの異なるコンポーネントに分解するSEA(Self-Error Adjustment)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-07T00:30:26Z) - Variational Supervised Contrastive Learning [50.79938854370321]
本稿では,教師付きコントラスト学習を潜在クラス変数に対する変分推論として再構成した変分教師付きコントラスト学習(VarCon)を提案する。
VarConは対照的な学習フレームワークの最先端のパフォーマンスを達成し、ImageNet-1Kでは79.36%、CIFAR-100では78.29%、ResNet-50エンコーダでは78.29%に達した。
論文 参考訳(メタデータ) (2025-06-09T04:19:12Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Optimizing Class-Level Probability Reweighting Coefficients for Equitable Prompting Accuracy [12.287692969438169]
LLMは、事前訓練されたデータの統計正則性からのバイアスをしばしば発見する。
これは、分類とQAにおいて、永続的で不均一なクラス精度をもたらす。
本研究では,非微分不可能な性能駆動メトリクスを直接最適化するポストホック確率再重み付け手法を開発した。
論文 参考訳(メタデータ) (2024-05-13T10:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。