論文の概要: MBIAS: Mitigating Bias in Large Language Models While Retaining Context
- arxiv url: http://arxiv.org/abs/2405.11290v1
- Date: Sat, 18 May 2024 13:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:28:33.483982
- Title: MBIAS: Mitigating Bias in Large Language Models While Retaining Context
- Title(参考訳): MBIAS: コンテキストを維持しながら、大規模言語モデルにおけるバイアスの緩和
- Authors: Shaina Raza, Ananya Raval, Veronica Chatrath,
- Abstract要約: 安全対策のためのカスタムデータセットを微調整したフレームワーク MBIAS を提案する。
MBIASは、大規模言語モデルにおけるバイアスと毒性の重要な問題に対処することを目的としている。
我々は,鍵情報の保持に成功しながら,全体のバイアスと毒性を30%以上低減したことを示す。
- 参考スコア(独自算出の注目度): 2.321323878201932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In addressing the critical need for safety in Large Language Models (LLMs), it is crucial to ensure that the outputs are not only safe but also retain their contextual accuracy. Many existing LLMs are safe fine-tuned either with safety demonstrations, or rely only on adversarial testing. While able to get safe outputs, they often risk losing contextual meaning as they mitigate bias and toxicity. In response, we present MBIAS, a LLM framework instruction fine-tuned on a custom dataset specifically designed for safety interventions. MBIAS aims to address the significant issues of bias and toxicity in LLMs generations that typically manifest as underrepresentation or negative portrayals across various demographics, including inappropriate linguistic mentions and biased content in social media. We experiment on MBIAS for safety interventions using various configurations, and demonstrate more than a 30\% reduction in overall bias and toxicity while successfully retaining key information. Additionally, a demographic analysis on an out-of-distribution test set confirms the robustness of our approach, with reductions in bias and toxicity exceeding 90\% across various demographics. The dataset and instruction fine-tuned MBIAS are made available to the research community at https://huggingface.co/newsmediabias/MBIAS.
- Abstract(参考訳): LLM(Large Language Models)の安全性に対する重要なニーズに対処するためには、アウトプットが安全であるだけでなく、コンテキストの正確性も維持することが不可欠である。
既存のLLMの多くは、安全なデモで安全に調整されているか、敵の試験にのみ依存している。
安全なアウトプットを得られるが、バイアスや毒性を軽減できるため、文脈的な意味を失うリスクがしばしばある。
本報告では,安全対策に特化して設計されたカスタムデータセットを微調整した LLM フレームワーク MBIAS を提案する。
MBIASは、LLM世代において、不適切な言語的言及やソーシャルメディアの偏見のあるコンテンツを含む、様々な人口層で不適切な表現や否定的な表現として表される、バイアスと毒性の重大な問題に対処することを目的としている。
各種構成を用いて安全介入のためのMBIAS実験を行い,鍵情報の保持に成功しながら,全体の偏りと毒性を30倍以上低減することを示した。
さらに、アウト・オブ・ディストリビューション・テスト・セットにおける人口統計学的分析により、様々な人口統計学において偏見と毒性の低下が90%を超えるという、我々のアプローチの堅牢性が確認された。
データセットと微調整のMBIASは、https://huggingface.co/newsmediabias/MBIASで研究コミュニティに提供されている。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases [0.0]
本稿では,大規模言語モデルにおけるバイアスと公平性リスクを評価するための実践者のための技術ガイドを提供する。
この作業の主な貢献は、特定のLLMユースケースで使用するメトリクスを決定するための決定フレームワークである。
論文 参考訳(メタデータ) (2024-07-15T16:04:44Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。
膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。
本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文 参考訳(メタデータ) (2024-05-17T09:42:59Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。