論文の概要: HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection
- arxiv url: http://arxiv.org/abs/2409.11579v2
- Date: Tue, 19 Nov 2024 16:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:05.764856
- Title: HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection
- Title(参考訳): HEARTS: 説明可能で持続可能でロバストなテキストステレオタイプ検出のための全体的フレームワーク
- Authors: Theo King, Zekun Wu, Adriano Koshiyama, Emre Kazim, Philip Treleaven,
- Abstract要約: HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデル性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。
我々は,LGBTQ+や地域ステレオタイプなど,6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype dataset)を確立する。
そして、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを解析し、トークンレベルの重要度を生成し、人間の理解との整合性を確保し、SHAPとSHAPを比較して説明可能性の信頼性スコアを算出する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Stereotypes are generalised assumptions about societal groups, and even state-of-the-art LLMs using in-context learning struggle to identify them accurately. Due to the subjective nature of stereotypes, where what constitutes a stereotype can vary widely depending on cultural, social, and individual perspectives, robust explainability is crucial. Explainable models ensure that these nuanced judgments can be understood and validated by human users, promoting trust and accountability. We address these challenges by introducing HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection), a framework that enhances model performance, minimises carbon footprint, and provides transparent, interpretable explanations. We establish the Expanded Multi-Grain Stereotype Dataset (EMGSD), comprising 57,201 labelled texts across six groups, including under-represented demographics like LGBTQ+ and regional stereotypes. Ablation studies confirm that BERT models fine-tuned on EMGSD outperform those trained on individual components. We then analyse a fine-tuned, carbon-efficient ALBERT-V2 model using SHAP to generate token-level importance values, ensuring alignment with human understanding, and calculate explainability confidence scores by comparing SHAP and LIME outputs...
- Abstract(参考訳): ステレオタイプは、社会的グループに関する一般的な仮定であり、文脈内学習を用いた最先端のLLMでさえ、それらを正確に識別するのに苦労する。
ステレオタイプを構成するものが文化的、社会的、個人的視点によって大きく異なるという主観的な性質のため、堅牢な説明可能性は非常に重要である。
説明可能なモデルは、これらの曖昧な判断が人間によって理解され、検証され、信頼と説明責任を促進することを保証する。
HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデルの性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。
我々は,LGBTQ+や地域ステレオタイプなど,6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype Dataset)を確立する。
アブレーション研究により、BERTモデルはEMGSDで微調整され、個々のコンポーネントで訓練されたモデルよりも優れていたことが確認された。
そして、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを分析し、トークンレベルの重要度を生成し、人間の理解と整合性を確保し、SHAPとLIMEの出力を比較して説明可能性の信頼性スコアを算出する。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Incorporating Human Explanations for Robust Hate Speech Detection [17.354241456219945]
我々は、LMがヘイトスピーチを忠実に評価するかどうかを評価するための3段階分析を開発する。
まず、暗黙の意味を捉えるために、文脈的に基底付けられたステレオタイプインテントをモデル化する必要性を観察する。
次に,SIE(Stereotype Intent Entailment)という新たなタスクを設計し,ステレオタイプの存在を文脈的に理解するモデルを提案する。
論文 参考訳(メタデータ) (2024-11-09T15:29:04Z) - Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach [4.908389661988191]
本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。
我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。
我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
論文 参考訳(メタデータ) (2024-04-02T09:31:32Z) - Towards Auditing Large Language Models: Improving Text-based Stereotype
Detection [5.3634450268516565]
i) ジェンダー、人種、職業、宗教のステレオタイプテキストの52,751件を含むマルチグラインステレオタイプデータセットを紹介する。
そこで本研究では,新しいデータセットでトレーニングしたモデルについて,厳密に検証する実験を行った。
実験によると、マルチクラスの設定でモデルをトレーニングすることは、すべてのバイナリの1つよりも優れている。
論文 参考訳(メタデータ) (2023-11-23T17:47:14Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language [0.03749861135832073]
大規模言語モデル(LLM)は、有害なステレオタイプを補強する様々な形式のバイアスと言語強化を含む膨大な未計算データセットに基づいて訓練される。
言語モデルにおけるバイアスを調べ、対処することが不可欠であり、それらのモデルが社会的バイアスを持続させないように、公平さを開発に組み込むことが不可欠である。
この研究は、自動ステレオタイプ検出における重要な要素としての推論を確立し、LSMのためのより強力なステレオタイプ緩和パイプラインに向けた第一歩である。
論文 参考訳(メタデータ) (2023-07-24T15:12:13Z) - Towards Fair and Explainable AI using a Human-Centered AI Approach [5.888646114353372]
分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトについて述べる。
最初のプロジェクトは、ローカルモデル説明を機械教師のインタフェースとして導入するユーティリティ/ダウンサイドについて検討する。
第二のプロジェクトは、因果性に基づくヒューマン・イン・ザ・ループ視覚ツールであるD-BIASを紹介し、データセットの社会的バイアスを特定し緩和する。
第3のプロジェクトは、グループに対するバイアスに対するトレーニング済みの静的単語埋め込みの監査を支援する、ビジュアルインタラクティブツールであるWordBiasを提示する。
4番目のプロジェクトは、ソーシャルを識別するビジュアル分析ツールDramatVis Personae
論文 参考訳(メタデータ) (2023-06-12T21:08:55Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。