論文の概要: Checking HateCheck: a cross-functional analysis of behaviour-aware
learning for hate speech detection
- arxiv url: http://arxiv.org/abs/2204.04042v1
- Date: Fri, 8 Apr 2022 13:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 15:12:47.873782
- Title: Checking HateCheck: a cross-functional analysis of behaviour-aware
learning for hate speech detection
- Title(参考訳): HateCheck:ヘイトスピーチ検出のための行動認識学習のクロスファンクショナル分析
- Authors: Pedro Henrique Luz de Araujo and Benjamin Roth
- Abstract要約: 本稿では,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いた微調整方式について検討する。
テストケースのカテゴリを保持して,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。
微調整処理により,保持機能と同一性群の分類精度が向上した。
しかし, 保留機能クラスやヘイトスピーチ検出データの性能は低下し, 一般化は多種多様であった。
- 参考スコア(独自算出の注目度): 4.0810783261728565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavioural testing -- verifying system capabilities by validating
human-designed input-output pairs -- is an alternative evaluation method of
natural language processing systems proposed to address the shortcomings of the
standard approach: computing metrics on held-out data. While behavioural tests
capture human prior knowledge and insights, there has been little exploration
on how to leverage them for model training and development. With this in mind,
we explore behaviour-aware learning by examining several fine-tuning schemes
using HateCheck, a suite of functional tests for hate speech detection systems.
To address potential pitfalls of training on data originally intended for
evaluation, we train and evaluate models on different configurations of
HateCheck by holding out categories of test cases, which enables us to estimate
performance on potentially overlooked system properties. The fine-tuning
procedure led to improvements in the classification accuracy of held-out
functionalities and identity groups, suggesting that models can potentially
generalise to overlooked functionalities. However, performance on held-out
functionality classes and i.i.d. hate speech detection data decreased, which
indicates that generalisation occurs mostly across functionalities from the
same class and that the procedure led to overfitting to the HateCheck data
distribution.
- Abstract(参考訳): 振る舞いテスト -- 人間が設計した入出力ペアを検証することでシステム機能を検証する -- は、標準アプローチの欠点に対処するために提案された自然言語処理システムの代替評価手法である。
振る舞いテストは人間の事前の知識と洞察を捉えるが、モデルトレーニングと開発にそれらを活用する方法についてはほとんど調査されていない。
このことを念頭に置いて,ヘイトスピーチ検出システムのための機能テストスイートであるHateCheckを用いて,いくつかの微調整スキームを調べ,行動認識学習について検討する。
評価を意図したデータに対するトレーニングの潜在的な落とし穴に対処するために,テストケースのカテゴリを保持することで,HateCheckのさまざまな構成に関するモデルをトレーニングし,評価する。
微調整手順は保留機能と同一性群の分類精度の向上につながり、モデルが見過ごされた機能に一般化できる可能性が示唆された。
しかし、ホールドアウト機能クラスとヘイトスピーチ検出データのパフォーマンスは低下し、これは一般化がほぼ同じクラスからの機能にわたって起こり、その手順がHateCheckデータ分布に過度に適合することを示している。
関連論文リスト
- An Auditing Test To Detect Behavioral Shift in Language Models [28.52295230939529]
本稿では,言語モデルにおける連続的行動シフト監査(BSA)手法を提案する。
BSAはモデル世代のみを通して行動シフトを検出する。
このテストは、数百の例を使って、行動分布の有意義な変化を検出することができる。
論文 参考訳(メタデータ) (2024-10-25T09:09:31Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Probabilistic Safety Regions Via Finite Families of Scalable Classifiers [2.431537995108158]
監視された分類は、データのパターンを認識して、振る舞いのクラスを分離する。
正準解は、機械学習の数値近似の性質に固有の誤分類誤差を含む。
本稿では,確率論的安全性領域の概念を導入し,入力空間のサブセットとして,誤分類されたインスタンスの数を確率論的に制御する手法を提案する。
論文 参考訳(メタデータ) (2023-09-08T22:40:19Z) - Cross-functional Analysis of Generalisation in Behavioural Learning [4.0810783261728565]
本稿では,異なるレベルの次元をまたいだ一般化を考慮した行動学習の分析手法であるBluGAを紹介する。
集計スコアは、目に見えない機能(または過剰適合)への一般化を測定する
論文 参考訳(メタデータ) (2023-05-22T11:54:19Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - HateCheck: Functional Tests for Hate Speech Detection Models [3.4938484663205776]
HateCheckはヘイトスピーチ検出モデルのための最初の機能テストスイートである。
我々は、過去の研究を見直して動機づける29のモデル機能を指定する。
我々は,最先端の変圧器検出モデルと商用モデルの試験を行い,致命的なモデルの弱点を明らかにする。
論文 参考訳(メタデータ) (2020-12-31T13:44:56Z) - Understanding Failures of Deep Networks via Robust Feature Extraction [44.204907883776045]
本研究では,視覚的特徴を識別し,不在や不在がパフォーマンスの低下を招き,失敗を特徴づけ,説明することを目的とした手法を紹介し,検討する。
我々は、分離されたロバストモデルの表現を活用して、解釈可能な特徴を抽出し、これらの特徴を利用して障害モードを特定します。
論文 参考訳(メタデータ) (2020-12-03T08:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。