論文の概要: Explaining Hate Speech Classification with Model Agnostic Methods
- arxiv url: http://arxiv.org/abs/2306.00021v1
- Date: Tue, 30 May 2023 19:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 20:36:35.677725
- Title: Explaining Hate Speech Classification with Model Agnostic Methods
- Title(参考訳): モデル非依存手法によるヘイトスピーチ分類の説明
- Authors: Durgesh Nandini and Ute Schmid
- Abstract要約: 本研究の目的は、ヘイトスピーチ予測と、その決定を支援するためにシステムによって生成された説明とのギャップを埋めることである。
これは、まずテキストの分類を予測し、その後、ポストホック、モデル非依存、代理的解釈可能性アプローチを提供することによって達成されている。
- 参考スコア(独自算出の注目度): 0.9990687944474738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There have been remarkable breakthroughs in Machine Learning and Artificial
Intelligence, notably in the areas of Natural Language Processing and Deep
Learning. Additionally, hate speech detection in dialogues has been gaining
popularity among Natural Language Processing researchers with the increased use
of social media. However, as evidenced by the recent trends, the need for the
dimensions of explainability and interpretability in AI models has been deeply
realised. Taking note of the factors above, the research goal of this paper is
to bridge the gap between hate speech prediction and the explanations generated
by the system to support its decision. This has been achieved by first
predicting the classification of a text and then providing a posthoc, model
agnostic and surrogate interpretability approach for explainability and to
prevent model bias. The bidirectional transformer model BERT has been used for
prediction because of its state of the art efficiency over other Machine
Learning models. The model agnostic algorithm LIME generates explanations for
the output of a trained classifier and predicts the features that influence the
model decision. The predictions generated from the model were evaluated
manually, and after thorough evaluation, we observed that the model performs
efficiently in predicting and explaining its prediction. Lastly, we suggest
further directions for the expansion of the provided research work.
- Abstract(参考訳): 機械学習と人工知能には驚くべきブレークスルーがあり、特に自然言語処理とディープラーニングの分野では顕著だ。
さらに、対話におけるヘイトスピーチの検出は、ソーシャルメディアの利用が増加している自然言語処理研究者の間で人気を集めている。
しかし、最近の傾向が示すように、AIモデルにおける説明可能性と解釈可能性の次元の必要性は深く認識されている。
上記の要因に留意して,本研究の目的は,ヘイトスピーチの予測と,その決定を支持するシステムによって生成された説明とのギャップを埋めることである。
これは、まずテキストの分類を予測し、その後、説明可能性とモデルのバイアスを防ぐために、ポストホックでモデル非依存で代理的な解釈可能性アプローチを提供することによって達成された。
双方向トランスフォーマーモデルBERTは、他の機械学習モデルよりも芸術効率が高いため、予測に使用されている。
モデル非依存アルゴリズムLIMEは、訓練された分類器の出力に関する説明を生成し、モデル決定に影響を与える特徴を予測する。
モデルから生成された予測は手動で評価され、徹底的な評価の後、モデルが予測と説明を効率的に行うことを観察した。
最後に,提案する研究成果の拡大に向けたさらなる方向性を提案する。
関連論文リスト
- Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models [6.394084132117747]
本稿では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用する手法を提案する。
提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。
論文 参考訳(メタデータ) (2024-08-21T00:17:59Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Rationalizing Predictions by Adversarial Information Calibration [65.19407304154177]
我々は2つのモデルを共同で訓練する: 1つは、正確だがブラックボックスな方法でタスクを解く典型的なニューラルモデルであり、もう1つは、予測の理論的根拠を付加するセレクタ・予測モデルである。
我々は,2つのモデルから抽出した情報を,それらの違いが欠落した特徴や過度に選択された特徴の指標であるように校正するために,敵対的手法を用いる。
論文 参考訳(メタデータ) (2023-01-15T03:13:09Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Tree-based local explanations of machine learning model predictions,
AraucanaXAI [2.9660372210786563]
パフォーマンスと知性の間のトレードオフは、特に医学のような高度な応用において、しばしば直面する。
本稿では,ジェネリックMLモデルの予測に関する説明を生成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T17:39:19Z) - On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。
どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文 参考訳(メタデータ) (2021-06-08T18:31:02Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Explain and Predict, and then Predict Again [6.865156063241553]
説明生成フェーズにおけるマルチタスク学習を用いたExPredを、効果的なトレードオフ説明と予測損失として提案します。
3つの多様な言語データセットに対するアプローチを幅広く評価しています。
論文 参考訳(メタデータ) (2021-01-11T19:36:52Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。