論文の概要: MBIAS: Mitigating Bias in Large Language Models While Retaining Context
- arxiv url: http://arxiv.org/abs/2405.11290v3
- Date: Fri, 28 Jun 2024 16:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 21:15:15.123064
- Title: MBIAS: Mitigating Bias in Large Language Models While Retaining Context
- Title(参考訳): MBIAS: コンテキストを維持しながら、大規模言語モデルにおけるバイアスの緩和
- Authors: Shaina Raza, Ananya Raval, Veronica Chatrath,
- Abstract要約: 多様なアプリケーションにおける大規模言語モデル(LLM)は、生成されたコンテンツのコンテキスト整合性を損なうことなく安全性を保証する必要がある。
安全対策に特化して設計されたカスタムデータセットに微調整を施したLLMフレームワークであるMBIASを紹介する。
MBIASは、主要な情報を保持しながら、LLM出力のバイアスや有害な要素を著しく減少させるように設計されている。
実証分析により、BIASは標準評価では30%以上、多様な人口統計検査では90%以上、偏見と毒性の低下を達成していることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.321323878201932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The deployment of Large Language Models (LLMs) in diverse applications necessitates an assurance of safety without compromising the contextual integrity of the generated content. Traditional approaches, including safety-specific fine-tuning or adversarial testing, often yield safe outputs at the expense of contextual meaning. This can result in a diminished capacity to handle nuanced aspects of bias and toxicity, such as underrepresentation or negative portrayals across various demographics. To address these challenges, we introduce MBIAS, an LLM framework carefully instruction fine-tuned on a custom dataset designed specifically for safety interventions. MBIAS is designed to significantly reduce biases and toxic elements in LLM outputs while preserving the main information. This work also details our further use of LLMs: as annotator under human supervision and as evaluator of generated content. Empirical analysis reveals that MBIAS achieves a reduction in bias and toxicity by over 30\% in standard evaluations, and by more than 90\% in diverse demographic tests, highlighting the robustness of our approach. We make the dataset and the fine-tuned model available to the research community for further investigation and ensure reproducibility. The code for this project can be accessed here https://github.com/shainarazavi/MBIAS/tree/main. Warning: This paper contains examples that may be offensive or upsetting.
- Abstract(参考訳): 多様なアプリケーションにLLM(Large Language Models)を配置するには、生成されたコンテンツのコンテキスト整合性を損なうことなく安全性を保証する必要がある。
安全特有の微調整や敵対的なテストを含む伝統的なアプローチは、文脈的意味を犠牲にして安全なアウトプットをもたらすことが多い。
これは、偏見と毒性の微妙な側面を扱う能力の低下をもたらす可能性がある。
これらの課題に対処するために,安全対策に特化して設計されたカスタムデータセットに対して,慎重に微調整を行うLLMフレームワークであるMBIASを紹介した。
MBIASは、主要な情報を保持しながら、LLM出力のバイアスや有害な要素を著しく減少させるように設計されている。
この研究は、人間の監督下でアノテータとして、および生成されたコンテンツの評価者として、LLMのさらなる使用についても詳述している。
実証分析の結果,MBIASは標準評価では30倍以上,人口動態検査では90倍以上,バイアスや毒性の低下を達成し,我々のアプローチの堅牢性を強調した。
我々は、データセットと微調整されたモデルを研究コミュニティに提供し、さらなる調査と再現性を確保する。
このプロジェクトのコードは、https://github.com/shainarazavi/MBIAS/tree/main.comからアクセスすることができる。
警告: この論文には、攻撃的あるいは動揺する可能性のある例が含まれている。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。
膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。
本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文 参考訳(メタデータ) (2024-05-17T09:42:59Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。