論文の概要: Guiding LLM Decision-Making with Fairness Reward Models
- arxiv url: http://arxiv.org/abs/2507.11344v1
- Date: Tue, 15 Jul 2025 14:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.147514
- Title: Guiding LLM Decision-Making with Fairness Reward Models
- Title(参考訳): フェアネス・リワードモデルによるLCM決定過程の誘導
- Authors: Zara Hall, Melanie Subbiah, Thomas P Zollo, Kathleen McKeown, Richard Zemel,
- Abstract要約: 大規模な言語モデルは、高い意思決定をサポートするためにますます使われています。
本稿では,一般化可能なフェアネス・リワードモデルをトレーニングするためのフレームワークを提案する。
提案手法は,基準値の精度を一致させたり,超えたりしながら,一貫した公正性の向上を図っている。
- 参考スコア(独自算出の注目度): 12.32062012708603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used to support high-stakes decisions, potentially influencing who is granted bail or receives a loan. Naive chain-of-thought sampling can improve average decision accuracy, but has also been shown to amplify unfair bias. To address this challenge and enable the trustworthy use of reasoning models in high-stakes decision-making, we propose a framework for training a generalizable Fairness Reward Model (FRM). Our model assigns a fairness score to LLM reasoning, enabling the system to down-weight biased trajectories and favor equitable ones when aggregating decisions across reasoning chains. We show that a single Fairness Reward Model, trained on weakly supervised, LLM-annotated examples of biased versus unbiased reasoning, transfers across tasks, domains, and model families without additional fine-tuning. Applied to real-world decision-making tasks including recidivism prediction and social media moderation, we show that our approach consistently improves fairness while matching, or even surpassing, baseline accuracy.
- Abstract(参考訳): 大規模な言語モデルは、高額な意思決定をサポートするためにますます使われており、保釈やローンの受け取りに影響を及ぼす可能性がある。
Naive chain-of- Thought sampleは平均的な判断精度を向上させることができるが、不公平なバイアスを増幅することも示されている。
この課題に対処し、高い意思決定における推論モデルの信頼できる利用を可能にするために、一般化可能なフェアネス・リワード・モデル(FRM)をトレーニングするためのフレームワークを提案する。
我々のモデルでは,LLM推論に公平性スコアを割り当て,推論チェーンをまたいだ決定を集約する場合に,システムの重み付けの偏りを低くし,公平な判断を好むことができる。
弱教師付き, 偏りのない推論, タスク, ドメイン, モデルファミリー間での移動, 追加の微調整を伴わないモデルファレンス・リワードモデルについて, 弱い教師付きで訓練した1つのフェアネス・リワードモデルを示す。
我々は,リシビズム予測やソーシャルメディアのモデレーションなどの現実的な意思決定タスクに応用し,基準精度の整合性,あるいは超越性を常に改善していることを示す。
関連論文リスト
- Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Reasoning Towards Fairness: Mitigating Bias in Language Models through Reasoning-Guided Fine-Tuning [12.559028963968247]
モデルの推論能力と公平性との関係について検討する。
より強力な推論能力を持つ大型モデルは、かなり低いステレオタイプバイアスを示す。
本稿では,先進的推論モデルから構造的推論トレースを抽出し,そのような能力を欠いたモデルに注入する手法であるReGiFTを紹介する。
論文 参考訳(メタデータ) (2025-04-08T03:21:51Z) - Cognitive Debiasing Large Language Models for Decision-Making [71.2409973056137]
大規模言語モデル(LLM)は意思決定アプリケーションをサポートする可能性を示している。
我々は,自己適応型認知脱バイアス(SACD)という認知脱バイアス手法を提案する。
我々の手法は、3つの逐次的なステップ – バイアス決定、バイアス分析、認知バイアス ― に従うことで、プロンプトにおける潜在的な認知バイアスを反復的に緩和する。
論文 参考訳(メタデータ) (2025-04-05T11:23:05Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Balancing Rigor and Utility: Mitigating Cognitive Biases in Large Language Models for Multiple-Choice Questions [0.46873264197900916]
認知バイアスが合理的な偏差やショートカットによって意思決定効率を高めることを示す。
モデレーションと禁忌オプションを導入することで、エラー率を減らし、意思決定精度を改善し、意思決定率を最適化する。
このアプローチは、認知バイアスを活用する新しい方法を提供し、大きな言語モデルの実用性を改善する。
論文 参考訳(メタデータ) (2024-06-16T16:25:22Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Beyond Individual and Group Fairness [90.4666341812857]
本稿では,不公平な不公平な苦情に導かれる公平さの新しいデータ駆動モデルを提案する。
我々のモデルは、複数のフェアネス基準をサポートし、それらの潜在的な不整合を考慮に入れている。
論文 参考訳(メタデータ) (2020-08-21T14:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。