論文の概要: Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach
- arxiv url: http://arxiv.org/abs/2404.01768v2
- Date: Sat, 16 Nov 2024 00:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:10.726657
- Title: Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach
- Title(参考訳): LLMにおけるステレオタイプ検出:マルチクラス、説明可能、ベンチマーク駆動アプローチ
- Authors: Zekun Wu, Sahan Bulathwela, Maria Perez-Ortiz, Adriano Soares Koshiyama,
- Abstract要約: 本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。
我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。
我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
- 参考スコア(独自算出の注目度): 4.908389661988191
- License:
- Abstract: Stereotype detection is a challenging and subjective task, as certain statements, such as "Black people like to play basketball," may not appear overtly toxic but still reinforce racial stereotypes. With the increasing prevalence of large language models (LLMs) in human-facing artificial intelligence (AI) applications, detecting these types of biases is essential. However, LLMs risk perpetuating and amplifying stereotypical outputs derived from their training data. A reliable stereotype detector is crucial for benchmarking bias, monitoring model input and output, filtering training data, and ensuring fairer model behavior in downstream applications. This paper introduces the Multi-Grain Stereotype (MGS) dataset, consisting of 51,867 instances across gender, race, profession, religion, and other stereotypes, curated from multiple existing datasets. We evaluate various machine learning approaches to establish baselines and fine-tune language models of different architectures and sizes, presenting a suite of stereotype multiclass classifiers trained on the MGS dataset. Given the subjectivity of stereotypes, explainability is essential to align model learning with human understanding of stereotypes. We employ explainable AI (XAI) tools, including SHAP, LIME, and BertViz, to assess whether the model's learned patterns align with human intuitions about stereotypes.Additionally, we develop stereotype elicitation prompts and benchmark the presence of stereotypes in text generation tasks using popular LLMs, employing the best-performing stereotype classifiers.
- Abstract(参考訳): ステレオタイプ検出は困難で主観的な課題であり、例えば「黒人はバスケットボールをするのが好き」といった特定の言明は、過度に有害ではなく、人種的ステレオタイプを補強しているように見える。
人工知能(AI)アプリケーションにおける大規模言語モデル(LLM)の普及に伴い、このようなバイアスを検出することが不可欠である。
しかし、LSMはトレーニングデータから得られるステレオタイプ出力の持続と増幅のリスクを負う。
信頼性の高いステレオタイプ検出器は、バイアスのベンチマーク、モデルの入力と出力の監視、トレーニングデータのフィルタリング、下流アプリケーションにおけるより公平なモデル動作の確保に不可欠である。
本稿では, ジェンダー, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867のインスタンスからなるマルチグラインドステレオタイプ(MGS)データセットを提案する。
MGSデータセットで訓練されたステレオタイプ多クラス分類器のスイートを提示し、さまざまなアーキテクチャと大きさのベースラインと微調整言語モデルを確立するための機械学習アプローチを評価した。
ステレオタイプの主観性を考えると、モデル学習とステレオタイプの人間的理解の整合性は説明可能性に不可欠である。
我々は、SHAP、LIME、BertVizなどの説明可能なAI(XAI)ツールを用いて、モデルが学習したパターンがステレオタイプに関する人間の直感と一致しているかを評価する。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Reinforcement Guided Multi-Task Learning Framework for Low-Resource
Stereotype Detection [3.7223111129285096]
ステレオタイプ検出」データセットは主に、大規模な事前学習言語モデルに対する診断アプローチを採用している。
信頼できるデータセットに注釈をつけるには、テキストでステレオタイプがどのように現れるかという微妙なニュアンスを正確に理解する必要がある。
我々は「ステレオタイプ検出」における経験的性能を改善するために、データ豊富な隣接タスクの多元性を活用するマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2022-03-27T17:16:11Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Analysis of Predictive Coding Models for Phonemic Representation
Learning in Small Datasets [0.0]
本研究では,音素識別タスクにおける2つの予測符号化モデル,自動回帰予測符号化とコントラスト予測符号化の挙動について検討した。
実験の結果, 自己回帰損失と音素識別スコアとの間には, 強い相関関係が認められた。
CPCモデルは、トレーニングデータを渡した後既に急速に収束しており、平均すると、その表現は両方の言語でのAPCよりも優れています。
論文 参考訳(メタデータ) (2020-07-08T15:46:13Z) - DiVA: Diverse Visual Feature Aggregation for Deep Metric Learning [83.48587570246231]
視覚的類似性は多くのコンピュータビジョンアプリケーションにおいて重要な役割を果たす。
ディープ・メトリック・ラーニング(DML)は、そのような類似性を学ぶための強力なフレームワークである。
我々は,概念的に異なるデータ関係を対象とする複数の補完学習タスクを提案し,研究する。
我々は、訓練信号を集約する単一モデルを学び、その結果、強力な一般化と最先端のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2020-04-28T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。