論文の概要: Incorporating Human Explanations for Robust Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2411.06213v1
- Date: Sat, 09 Nov 2024 15:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:19.403783
- Title: Incorporating Human Explanations for Robust Hate Speech Detection
- Title(参考訳): ロバストヘイト音声検出のための人間説明の導入
- Authors: Jennifer L. Chen, Faisal Ladhak, Daniel Li, Noémie Elhadad,
- Abstract要約: 我々は、LMがヘイトスピーチを忠実に評価するかどうかを評価するための3段階分析を開発する。
まず、暗黙の意味を捉えるために、文脈的に基底付けられたステレオタイプインテントをモデル化する必要性を観察する。
次に,SIE(Stereotype Intent Entailment)という新たなタスクを設計し,ステレオタイプの存在を文脈的に理解するモデルを提案する。
- 参考スコア(独自算出の注目度): 17.354241456219945
- License:
- Abstract: Given the black-box nature and complexity of large transformer language models (LM), concerns about generalizability and robustness present ethical implications for domains such as hate speech (HS) detection. Using the content rich Social Bias Frames dataset, containing human-annotated stereotypes, intent, and targeted groups, we develop a three stage analysis to evaluate if LMs faithfully assess hate speech. First, we observe the need for modeling contextually grounded stereotype intents to capture implicit semantic meaning. Next, we design a new task, Stereotype Intent Entailment (SIE), which encourages a model to contextually understand stereotype presence. Finally, through ablation tests and user studies, we find a SIE objective improves content understanding, but challenges remain in modeling implicit intent.
- Abstract(参考訳): 大規模トランスフォーマー言語モデル(LM)のブラックボックスの性質と複雑さを考えると、一般化可能性や堅牢性に対する懸念は、ヘイトスピーチ(HS)検出のような領域に倫理的意味を持つ。
人間の注釈付きステレオタイプ、意図、対象グループを含むコンテンツリッチなSocial Bias Framesデータセットを用いて、LMがヘイトスピーチを忠実に評価するかどうかを評価する3段階の分析法を開発した。
まず、暗黙の意味を捉えるために、文脈的に基底付けられたステレオタイプインテントをモデル化する必要性を観察する。
次に,SIE(Stereotype Intent Entailment)という新たなタスクを設計し,ステレオタイプの存在を文脈的に理解するモデルを提案する。
最後に、アブレーションテストやユーザスタディを通じて、SIEの目的はコンテンツ理解を改善するが、暗黙の意図をモデル化することの課題は残る。
関連論文リスト
- HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection [0.0]
HEARTS (Holistic Framework for Explainable, Sustainable, and Robust Text Stereotype Detection)は、モデル性能を高め、炭素フットプリントを最小化し、透過的で解釈可能な説明を提供するフレームワークである。
我々は、LGBTQ+や地域ステレオタイプなど、6つのグループにわたる57,201のラベル付きテキストからなるEMGSD(Expanded Multi-Grain Stereotype dataset)を確立する。
そして、SHAPを用いて微調整された炭素効率のALBERT-V2モデルを解析し、トークンレベルの重要度を生成し、人間の理解と整合性を確保し、SHAPとLIMEを比較して説明可能性の信頼性スコアを算出する。
論文 参考訳(メタデータ) (2024-09-17T22:06:46Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - On The Role of Reasoning in the Identification of Subtle Stereotypes in Natural Language [0.03749861135832073]
大規模言語モデル(LLM)は、有害なステレオタイプを補強する様々な形式のバイアスと言語強化を含む膨大な未計算データセットに基づいて訓練される。
言語モデルにおけるバイアスを調べ、対処することが不可欠であり、それらのモデルが社会的バイアスを持続させないように、公平さを開発に組み込むことが不可欠である。
この研究は、自動ステレオタイプ検出における重要な要素としての推論を確立し、LSMのためのより強力なステレオタイプ緩和パイプラインに向けた第一歩である。
論文 参考訳(メタデータ) (2023-07-24T15:12:13Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Counteracts: Testing Stereotypical Representation in Pre-trained
Language Models [4.211128681972148]
我々は,事前学習言語モデル(PLM)の内部ステレオタイプ知識を調べるために,反例を用いている。
我々は,9種類のクローゼスタイルのプロンプトに対して,異なる情報と基本知識で7つのPLMを評価する。
論文 参考訳(メタデータ) (2023-01-11T07:52:59Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - CO-STAR: Conceptualisation of Stereotypes for Analysis and Reasoning [0.0]
我々は既存の文献と、インプリッドステレオタイプの基礎概念をエンコードする新しいフレームワークであるCO-STARを構築している。
また、インプリッドステレオタイプとステレオタイプ概念化の12K以上の構造化アノテーションを含むCO-STARトレーニングデータセットについても紹介する。
しかし、CO-STARモデルは、より複雑で下位に語られたステレオタイプを理解する能力に制限がある。
論文 参考訳(メタデータ) (2021-12-01T20:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。