論文の概要: Rejected Dialects: Biases Against African American Language in Reward Models
- arxiv url: http://arxiv.org/abs/2502.12858v1
- Date: Tue, 18 Feb 2025 13:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.972868
- Title: Rejected Dialects: Biases Against African American Language in Reward Models
- Title(参考訳): Rejected Dialects: Reward Modelsにおけるアフリカ系アメリカ人言語に対するバイアス
- Authors: Joel Mire, Zubin Trivadi Aysola, Daniel Chechelnitsky, Nicholas Deas, Chrysoula Zerva, Maarten Sap,
- Abstract要約: 報酬モデルにおける方言バイアスを評価するための枠組みを導入する。
我々は、WME(White Mainstream English)と機械翻訳と人書きAALコーパスのペアで、報酬モデルの好みと振舞いを比較する実験を行った。
我々は、報酬モデルがAALテキストとWMEテキストの処理において人間の好みと一致しないことを示す。
- 参考スコア(独自算出の注目度): 15.888517781590398
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Preference alignment via reward models helps build safe, helpful, and reliable large language models (LLMs). However, subjectivity in preference judgments and the lack of representative sampling in preference data collection can introduce new biases, hindering reward models' fairness and equity. In this work, we introduce a framework for evaluating dialect biases in reward models and conduct a case study on biases against African American Language (AAL) through several experiments comparing reward model preferences and behavior on paired White Mainstream English (WME) and both machine-translated and human-written AAL corpora. We show that reward models are less aligned with human preferences when processing AAL texts vs. WME ones (-4\% accuracy on average), frequently disprefer AAL-aligned texts vs. WME-aligned ones, and steer conversations toward WME, even when prompted with AAL texts. Our findings provide a targeted analysis of anti-AAL biases at a relatively understudied stage in LLM development, highlighting representational harms and ethical questions about the desired behavior of LLMs concerning AAL.
- Abstract(参考訳): 報酬モデルによる優先調整は、安全で有用な信頼性の高い大規模言語モデル(LLM)の構築に役立つ。
しかし、選好判断における主観性と選好データ収集における代表的サンプリングの欠如は、報酬モデルの公平性と公平性を阻害する新たなバイアスをもたらす可能性がある。
本研究では、報酬モデルにおける方言バイアスを評価するための枠組みを導入し、White Mainstream English(WME)と機械翻訳と人文によるAALコーパスについて、報酬モデルの好みと行動を比較した実験を通じて、アフリカ系アメリカ人言語(AAL)に対するバイアスに関する事例研究を行う。
報酬モデルでは、AALテキストとWMEテキストを処理した場合(平均4倍の精度)、AALテキストとWMEテキストとをよく区別し、AALテキストを入力してもWMEに向けての会話を行う。
本研究は,LSMの比較的研究段階における抗AALバイアスを標的として分析し,ALに関するLSMの望ましい行動に関する表現的害と倫理的疑問を強調した。
関連論文リスト
- Data Caricatures: On the Representation of African American Language in Pretraining Corpora [8.238934128943123]
我々は、主に英語、オープンソースの事前学習コーパスにおけるアフリカ系アメリカ人表現の量と質を評価する。
AALは、アメリカの人口統計学と比較して、すべての評価済み事前学習コーパスで不足しており、0.007%の文書で構成されている。
論文 参考訳(メタデータ) (2025-03-13T18:31:10Z) - Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations [7.052925981783274]
本稿では,テキスト生成時のバイアス属性を直接評価することで,LVLMのための新しい脱バイアスフレームワークを提案する。
本手法では, トレーニングを必要とせず, 比較的少数の代表バイアス出力が要求される。
我々の実験は、LVLMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく、合成データを使ってアブレーションを知らせることさえできることを示した。
論文 参考訳(メタデータ) (2024-10-17T19:02:31Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - On Diversified Preferences of Large Language Model Alignment [51.26149027399505]
本稿では,様々な大きさの報酬モデルに対する実験スケーリング法則の定量的解析を行った。
分析の結果,ヒトの嗜好の多様化による影響は,モデルサイズとデータサイズの両方に依存することが明らかとなった。
十分なキャパシティを持つ大きなモデルでは、さまざまな好みによるネガティブな影響が軽減される一方、より小さなモデルはそれらに対応するのに苦労する。
論文 参考訳(メタデータ) (2023-12-12T16:17:15Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Evaluation of African American Language Bias in Natural Language
Generation [9.823804049740916]
ホワイト・メインストリーム・イングリッシュ(WME)と比較して,LLMがアフリカ系アメリカ人言語(AAL)をいかに理解しているかを評価する。
提案するコントリビューションには,(1)2つの言語生成タスクにおける6つの事前訓練された大規模言語モデルの評価,(2)WMEにおける人間アノテーションによる複数の文脈からのAALテキストの新たなデータセット,(3)AAL特徴の理解の欠如に関するバイアスと傾向の同定を示唆するモデルパフォーマンスギャップの文書化などが含まれる。
論文 参考訳(メタデータ) (2023-05-23T17:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。