論文の概要: Rethinking Prompt-based Debiasing in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.09219v1
- Date: Wed, 12 Mar 2025 10:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:23.943027
- Title: Rethinking Prompt-based Debiasing in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるプロンプトに基づくデバイアスの再考
- Authors: Xinyi Yang, Runzhe Zhan, Derek F. Wong, Shu Yang, Junchao Wu, Lidia S. Chao,
- Abstract要約: 大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
- 参考スコア(独自算出の注目度): 40.90578215191079
- License:
- Abstract: Investigating bias in large language models (LLMs) is crucial for developing trustworthy AI. While prompt-based through prompt engineering is common, its effectiveness relies on the assumption that models inherently understand biases. Our study systematically analyzed this assumption using the BBQ and StereoSet benchmarks on both open-source models as well as commercial GPT model. Experimental results indicate that prompt-based is often superficial; for instance, the Llama2-7B-Chat model misclassified over 90% of unbiased content as biased, despite achieving high accuracy in identifying bias issues on the BBQ dataset. Additionally, specific evaluation and question settings in bias benchmarks often lead LLMs to choose "evasive answers", disregarding the core of the question and the relevance of the response to the context. Moreover, the apparent success of previous methods may stem from flawed evaluation metrics. Our research highlights a potential "false prosperity" in prompt-base efforts and emphasizes the need to rethink bias metrics to ensure truly trustworthy AI.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。
即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。
本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
例えば、Llama2-7B-Chatモデルは、BBQデータセット上のバイアス問題を特定する精度が高いにもかかわらず、バイアスのないコンテンツの90%以上をバイアス付きと誤分類している。
さらに、バイアスベンチマークにおける特定の評価と質問設定は、しばしばLLMに「回避的回答」を選択し、質問のコアと文脈に対する反応の関連性を無視している。
さらに、従来の手法の明らかな成功は、評価指標の欠陥によってもたらされる可能性がある。
私たちの研究は、プロンプトベースの取り組みにおける「偽の繁栄」の可能性を強調し、真に信頼できるAIを保証するためにバイアスメトリクスを再考する必要性を強調しています。
関連論文リスト
- Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models [1.787433808079955]
大規模言語モデル (LLM) は、学習データにおいて望ましくないバイアスを持続させる。
本稿では,小さなバイアスとアンチバイアスのエキスパートモデルを利用してバイアスを緩和し,デバイアス信号を得る。
性別、人種、宗教の偏見を緩和する実験は、いくつかの地域および世界的な偏見指標に偏見を減少させる。
論文 参考訳(メタデータ) (2024-12-02T16:56:08Z) - Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [49.3814117521631]
大規模言語モデル(LLM)におけるバイアスと公平性の標準ベンチマークは、ユーザプロンプトに入力された社会的属性と短い応答の関係を測定する。
実世界の3つの文脈から類似したRUTEd評価法を開発した。
標準偏差指標は、より現実的な偏差指標と有意な相関関係がないことがわかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。