論文の概要: Test-Time Fairness and Robustness in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.07685v2
- Date: Fri, 04 Oct 2024 21:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:27.013324
- Title: Test-Time Fairness and Robustness in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるテストタイムフェアネスとロバストネス
- Authors: Leonardo Cotta, Chris J. Maddison,
- Abstract要約: Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
暗黙的な指示とは異なり、我々のプロンプト戦略は、フロンティアLSMのバイアスを一貫して減少させることを示す。
- 参考スコア(独自算出の注目度): 17.758735680493917
- License:
- Abstract: Frontier Large Language Models (LLMs) can be socially discriminatory or sensitive to spurious features of their inputs. Because only well-resourced corporations can train frontier LLMs, we need robust test-time strategies to control such biases. Existing solutions, which instruct the LLM to be fair or robust, rely on the model's implicit understanding of bias. Causality provides a rich formalism through which we can be explicit about our debiasing requirements. Yet, as we show, a naive application of the standard causal debiasing strategy, counterfactual data augmentation, fails under standard assumptions to debias predictions at an individual level at test time. To address this, we develop a stratified notion of debiasing called stratified invariance, which can capture a range of debiasing requirements from population level to individual level through an additional measurement that stratifies the predictions. We present a complete observational test for stratified invariance. Finally, we introduce a data augmentation strategy that guarantees stratified invariance at test time under suitable assumptions, together with a prompting strategy that encourages stratified invariance in LLMs. We show that our prompting strategy, unlike implicit instructions, consistently reduces the bias of frontier LLMs across a suite of synthetic and real-world benchmarks without requiring additional data, finetuning or pre-training.
- Abstract(参考訳): Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
資金豊富な企業だけがフロンティアのLLMを訓練できるため、そのようなバイアスを制御するための堅牢なテストタイム戦略が必要です。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
因果性(Causality)は、当社のデバイアス要件を明確化するための、リッチな形式主義を提供します。
しかし、私たちが示すように、標準的な因果脱バイアス戦略(反ファクト的データ拡張)の素早い適用は、テスト時に個々のレベルでデバイアス予測を行う標準仮定の下で失敗する。
そこで我々は, 人口レベルから個人レベルまで, 予測を成層化する付加的な測定によって, 脱バイアスの要求範囲を把握できる, 層化不変性(stratified invariance)と呼ばれる層化脱バイアスの概念を開発した。
層状不均一性に関する完全な観察試験を行う。
最後に,LLMにおける階層化不変性を促進するプロンプト戦略とともに,適切な仮定の下でテスト時に階層化不変性を保証するデータ拡張戦略を導入する。
暗黙的な命令とは異なり、我々のプロンプト戦略は、追加のデータや微調整や事前学習を必要とせずに、合成および実世界のベンチマークスイートにおけるフロンティアLSMのバイアスを一貫して減少させることを示す。
関連論文リスト
- Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness [10.081447621656523]
言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和することができる。
タスク依存型デバイアスングヒンジの有効性は、下流アプリケーションに使用されるタスク固有データとデバイアスドモデルの両方の量的バイアスレベルに影響を及ぼす。
本稿では,ソーシャル・フェア・デバイアスを下流ファインチューニング,ProSocialTuningに伝達する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T15:11:11Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。