Fugu-MT 論文翻訳(概要): Mitigating LLM biases toward spurious social contexts using direct preference optimization

論文の概要: Mitigating LLM biases toward spurious social contexts using direct preference optimization

arxiv url: http://arxiv.org/abs/2604.02585v1
Date: Thu, 02 Apr 2026 23:42:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.247854
Title: Mitigating LLM biases toward spurious social contexts using direct preference optimization
Title（参考訳）: 直接選好最適化を用いた刺激的社会的文脈に対するLLMバイアスの緩和
Authors: Hyunji Nam, Dorottya Demszky,
Abstract要約: 本稿では,米国学級の教科書の公開データセットを用いて,ソーシャルコンテキストを刺激するモデルロバスト性について検討する。無関係な文脈情報は、モデル予測を7点スケールで最大1.48ポイントシフトすることができる。 Debiasing-DPO**は,クエリから生成した中立推論とモデルのバイアス推論とをペアリングする自己教師型学習法である。
参考スコア（独自算出の注目度）: 5.169989177779799
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: LLMs are increasingly used for high-stakes decision-making, yet their sensitivity to spurious contextual information can introduce harmful biases. This is a critical concern when models are deployed for tasks like evaluating teachers' instructional quality, where biased assessment can affect teachers' professional development and career trajectories. We investigate model robustness to spurious social contexts using the largest publicly available dataset of U.S. classroom transcripts (NCTE) paired with expert rubric scores. Evaluating seven frontier and open-weight models across seven categories of spurious contexts -- including teacher experience, education level, demographic identity, and sycophancy-inducing framings -- we find that irrelevant contextual information can shift model predictions by up to 1.48 points on a 7-point scale, with larger models sometimes exhibiting greater sensitivity despite higher predictive accuracy. Mitigations using prompts and standard direct preference optimization (DPO) prove largely insufficient. We propose **Debiasing-DPO**,, a self-supervised training method that pairs neutral reasoning generated from the query alone, with the model's biased reasoning generated with both the query and additional spurious context. We further combine this objective with supervised fine-tuning on ground-truth labels to prevent losses in predictive accuracy. Applied to Llama 3B \& 8B and Qwen 3B \& 7B Instruct models, Debiasing-DPO reduces bias by 84\% and improves predictive accuracy by 52\% on average. Our findings from the educational case study highlight that robustness to spurious context is not a natural byproduct of model scaling and that our proposed method can yield substantial gains in both accuracy and robustness for prompt-based prediction tasks.
Abstract（参考訳）: LLMは高い意思決定に使用されることが多いが、文脈情報に対する感度は有害なバイアスをもたらす可能性がある。これは、教師の教育的品質を評価することや、教師の専門的発達やキャリアの軌跡に影響を与える偏見のあるモデルが配置される場合の重大な懸念である。本研究では,米国教室書記書(NCTE)の公開データセットと専門家のルーリックスコアを組み合わせて,ソーシャルコンテキストを刺激するモデルロバスト性について検討した。教師の経験、教育レベル、人口密度、シカフエンシを誘発するフレーミングを含む、刺激的な文脈の7つのカテゴリにわたる7つのフロンティアモデルとオープンウェイトモデルを評価することで、無関係な文脈情報は、予測精度が高いにもかかわらず、より大きなモデルではモデル予測を最大1.48ポイントシフトできることがわかった。プロンプトと標準直接選好最適化(DPO)を用いた緩和は、ほとんど不十分である。 Debiasing-DPO*は、クエリから生成した中立推論と、クエリと追加の刺激的コンテキストの両方で生成されたモデルバイアス推論をペアリングする自己教師型トレーニング手法である。さらに,この目的と,地中トラスラベルの微調整を併用し,予測精度の低下を防止する。 Llama 3B \& 8B および Qwen 3B \& 7B 命令モデルに適用すると、Debiasing-DPO はバイアスを84 %削減し、予測精度を平均52 %改善する。教育事例研究から得られた知見は, 刺激的文脈に対するロバスト性は, モデルスケーリングの自然な副産物ではないこと, 提案手法は, プロンプトに基づく予測タスクにおいて, 精度とロバスト性の両方において有意な利得が得られることを示唆している。

関連論文リスト

Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文参考訳（メタデータ） (2025-05-13T21:50:03Z)
Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文参考訳（メタデータ） (2025-03-12T10:06:03Z)
Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。 FASTは最先端のベースラインを超え、デバイアス性能が優れている。これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文参考訳（メタデータ） (2024-08-07T17:14:58Z)
Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness [10.081447621656523]
言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和することができる。タスク依存型デバイアスングヒンジの有効性は、下流アプリケーションに使用されるタスク固有データとデバイアスドモデルの両方の量的バイアスレベルに影響を及ぼす。本稿では,ソーシャル・フェア・デバイアスを下流ファインチューニング,ProSocialTuningに伝達する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-06T15:11:11Z)
Analyzing and Mitigating Bias for Vulnerable Classes: Towards Balanced Representation in Dataset [2.143460356353513]
本研究は、脆弱な道路利用者間のクラス不均衡を調査することに焦点を当てる。一般的なCNNモデルとビジョントランスフォーマー(ViT)をnuScenesデータセットで利用しています。提案手法を用いて、CNNモデルのIoU(%)とNDS(%)のメトリクスを71.3から75.6、80.6から83.7に改善する。
論文参考訳（メタデータ） (2024-01-18T22:10:46Z)
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-11T12:02:14Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。 GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文参考訳（メタデータ） (2021-12-20T14:47:32Z)
Improving Robustness by Augmenting Training Sentences with Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文参考訳（メタデータ） (2020-10-23T16:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。