論文の概要: Certifying Counterfactual Bias in LLMs
- arxiv url: http://arxiv.org/abs/2405.18780v3
- Date: Mon, 21 Apr 2025 23:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 19:51:40.046153
- Title: Certifying Counterfactual Bias in LLMs
- Title(参考訳): LLMにおける正当性バイアスの認定
- Authors: Isha Chaudhary, Qian Hu, Manoj Kumar, Morteza Ziyadi, Rahul Gupta, Gagandeep Singh,
- Abstract要約: 大規模言語モデル(LLM)は、表現障害を引き起こすバイアスのある応答を生成することができる。
提案するLLMCert-Bは,プロンプトの分布に対する非実効的バイアスを認定するフレームワークである。
- 参考スコア(独自算出の注目度): 18.91760463088026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) can produce biased responses that can cause representational harms. However, conventional studies are insufficient to thoroughly evaluate biases across LLM responses for different demographic groups (a.k.a. counterfactual bias), as they do not scale to large number of inputs and do not provide guarantees. Therefore, we propose the first framework, LLMCert-B that certifies LLMs for counterfactual bias on distributions of prompts. A certificate consists of high-confidence bounds on the probability of unbiased LLM responses for any set of counterfactual prompts - prompts differing by demographic groups, sampled from a distribution. We illustrate counterfactual bias certification for distributions of counterfactual prompts created by applying prefixes sampled from prefix distributions, to a given set of prompts. We consider prefix distributions consisting random token sequences, mixtures of manual jailbreaks, and perturbations of jailbreaks in LLM's embedding space. We generate non-trivial certificates for SOTA LLMs, exposing their vulnerabilities over distributions of prompts generated from computationally inexpensive prefix distributions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、表現障害を引き起こすバイアスのある応答を生成することができる。
しかし、従来の研究では、多数の入力にスケールせず保証を提供していないため、異なる人口集団(例えば、偽物バイアス)に対するLSM応答の偏見を徹底的に評価することができない。
そこで本研究では,LLMCert-Bの最初のフレームワークであるLLMCert-Bを提案する。
証明書は、ある分布からサンプリングされた人口集団によって異なるプロンプトの集合に対して、不偏のLCM応答の確率に関する高信頼境界で構成されている。
本稿では,プレフィックス分布からサンプル化されたプレフィックスを与えられたプロンプト集合に適用して作成した,反実的プロンプトの分布に対する反実的バイアス認証について述べる。
LLMの埋め込み空間におけるランダムトークン列,手動ジェイルブレイクの混合,およびジェイルブレイクの摂動からなるプレフィックス分布を考察する。
我々はSOTA LLMの非自明な証明書を生成し、計算的に安価なプレフィックス分布から生成されたプロンプトの分布に対する脆弱性を明らかにする。
関連論文リスト
- Enough Coin Flips Can Make LLMs Act Bayesian [71.79085204454039]
大規模言語モデル(LLMs)は、入力プロンプトで与えられた少数ショットの例を一般化する能力を示しており、これはICL(In-context Learning)として知られる創発的能力である。
我々は,ILCを用いてベイズフレームワークと整合性のある構造的推論を行うか,パターンマッチングに依存するかを検討する。
論文 参考訳(メタデータ) (2025-03-06T18:59:23Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。
本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文 参考訳(メタデータ) (2024-12-23T12:44:54Z) - Evaluating and Mitigating Social Bias for Large Language Models in Open-ended Settings [13.686732204665738]
既存のBBQデータセットを,補間質問型と短解質問型を組み込むことで拡張する。
我々の発見によると、LSMは年齢や社会経済的地位など、特定の保護された属性に対してより偏りのある反応を生み出す。
偏見をゼロショット、少数ショット、チェーン・オブ・シントを組み合わせることで、偏見のレベルを約0。
論文 参考訳(メタデータ) (2024-12-09T01:29:47Z) - Are LLMs Good Zero-Shot Fallacy Classifiers? [24.3005882003251]
ゼロショット誤字分類にLarge Language Models(LLM)を活用することに注力する。
ベンチマークデータセットに関する総合的な実験により、LLMはゼロショット誤り分類器となる可能性が示唆された。
我々の新しいマルチラウンドプロンプト方式は、特に小型LLMにおいて、効果的にさらなる改善をもたらすことができる。
論文 参考訳(メタデータ) (2024-10-19T09:38:55Z) - Explicit Inductive Inference using Large Language Models [13.767536248988268]
大規模言語モデル(LLM)は、推論タスクに対して望ましくない証明バイアスを負うと報告されている。
このバイアスを利用して明示的な帰納的推論を行うパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-26T17:58:17Z) - Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Gray Learning from Non-IID Data with Out-of-distribution Samples [45.788789553551176]
専門家が注釈を付けたとしても、トレーニングデータの完全性は保証されていない。
我々は,基本真実と相補的ラベルを両立させる新しいアプローチであるtextitGray Learningを導入する。
統計学習理論における我々のアプローチを基礎として、一般化誤差の境界を導出し、GLが非IID設定でも厳密な制約を達成できることを実証する。
論文 参考訳(メタデータ) (2022-06-19T10:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。