論文の概要: BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs
- arxiv url: http://arxiv.org/abs/2407.10241v2
- Date: Sat, 20 Jul 2024 15:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:12:27.298877
- Title: BiasAlert: A Plug-and-play Tool for Social Bias Detection in LLMs
- Title(参考訳): BiasAlert: LLMにおけるソーシャルバイアス検出のためのプラグイン・アンド・プレイツール
- Authors: Zhiting Fan, Ruizhe Chen, Ruiling Xu, Zuozhu Liu,
- Abstract要約: BiasAlertは、LLM(Large Language Models)のオープンテキスト世代における社会的バイアスを検出するために設計されたプラグアンドプレイツールである。
外部の人間の知識と固有の推論能力を統合し、バイアスを確実に検出する。
大規模な実験により、BiasAlertはGPT4-as-A-Judgeのような最先端の手法でバイアスを検出するのに優れていた。
- 参考スコア(独自算出の注目度): 7.30796695035169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the bias in Large Language Models (LLMs) becomes increasingly crucial with their rapid development. However, existing evaluation methods rely on fixed-form outputs and cannot adapt to the flexible open-text generation scenarios of LLMs (e.g., sentence completion and question answering). To address this, we introduce BiasAlert, a plug-and-play tool designed to detect social bias in open-text generations of LLMs. BiasAlert integrates external human knowledge with inherent reasoning capabilities to detect bias reliably. Extensive experiments demonstrate that BiasAlert significantly outperforms existing state-of-the-art methods like GPT4-as-A-Judge in detecting bias. Furthermore, through application studies, we demonstrate the utility of BiasAlert in reliable LLM bias evaluation and bias mitigation across various scenarios. Model and code will be publicly released.
- Abstract(参考訳): 大規模言語モデル(LLM)のバイアスを評価することは、その急速な開発においてますます重要になっている。
しかし、既存の評価手法は固定形式の出力に依存しており、LLMの柔軟なオープンテキスト生成シナリオ(例:文補完と質問応答)に適応できない。
そこで本稿では,LLMのオープンテキスト世代における社会的バイアスを検出するためのプラグイン・アンド・プレイツールであるBiasAlertを紹介する。
BiasAlertは外部の人間の知識と固有の推論能力を統合し、バイアスを確実に検出する。
大規模な実験により、BiasAlertはGPT4-as-A-Judgeのような最先端の手法でバイアスを検出するのに優れていた。
さらに、アプリケーション研究を通じて、様々なシナリオにおける信頼性LLMバイアス評価とバイアス緩和におけるBiasAlertの有用性を実証する。
モデルとコードは公開されます。
関連論文リスト
- Cognitive Biases in Large Language Models for News Recommendation [68.90354828533535]
本稿では,認知バイアスが大規模言語モデル(LLM)に基づくニュースレコメンデータシステムに与える影響について検討する。
データ拡張、エンジニアリングと学習アルゴリズムの側面を通じて、これらのバイアスを軽減する戦略について議論する。
論文 参考訳(メタデータ) (2024-10-03T18:42:07Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Promoting Equality in Large Language Models: Identifying and Mitigating the Implicit Bias based on Bayesian Theory [29.201402717025335]
大規模言語モデル(LLM)は、必然的にバイアスのある情報を含む広範なテキストコーパスで訓練される。
我々は、暗黙のバイアス問題を正式に定義し、ベイズ理論に基づくバイアス除去のための革新的な枠組みを開発した。
論文 参考訳(メタデータ) (2024-08-20T07:40:12Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation [3.9945212716333063]
大規模言語モデル(LLM)による決定に影響を与えるため、暗黙のバイアスは重要である。
伝統的に、明示的なバイアステストや埋め込みベースの手法はバイアスを検出するために使用されるが、これらのアプローチはより微妙で暗黙的なバイアスの形式を見落としることができる。
提案手法は, 暗黙の偏見を明らかにするために, 即発的, 意思決定的タスクによる2つの新しい心理学的手法を導入している。
論文 参考訳(メタデータ) (2024-07-01T13:21:33Z) - Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。
LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。
我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文 参考訳(メタデータ) (2024-03-22T00:59:48Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。