論文の概要: Improving Generalizability in Implicitly Abusive Language Detection with
Concept Activation Vectors
- arxiv url: http://arxiv.org/abs/2204.02261v1
- Date: Tue, 5 Apr 2022 14:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 16:08:31.570457
- Title: Improving Generalizability in Implicitly Abusive Language Detection with
Concept Activation Vectors
- Title(参考訳): 概念活性化ベクトルを用いた難読言語検出における一般化性の向上
- Authors: Isar Nejadgholi, Kathleen C. Fraser, Svetlana Kiritchenko
- Abstract要約: 一般乱用言語分類器は、明らかに乱用発話を検出するのにかなり信頼性が高い傾向にあるが、より微妙で暗黙的な新しいタイプの乱用を検出できないことを示す。
本稿では,コンピュータビジョンからのTCAV(Testing Concept Activation Vector)法に基づく解釈可能性手法を提案する。
- 参考スコア(独自算出の注目度): 8.525950031069687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness of machine learning models on ever-changing real-world data is
critical, especially for applications affecting human well-being such as
content moderation. New kinds of abusive language continually emerge in online
discussions in response to current events (e.g., COVID-19), and the deployed
abuse detection systems should be updated regularly to remain accurate. In this
paper, we show that general abusive language classifiers tend to be fairly
reliable in detecting out-of-domain explicitly abusive utterances but fail to
detect new types of more subtle, implicit abuse. Next, we propose an
interpretability technique, based on the Testing Concept Activation Vector
(TCAV) method from computer vision, to quantify the sensitivity of a trained
model to the human-defined concepts of explicit and implicit abusive language,
and use that to explain the generalizability of the model on new data, in this
case, COVID-related anti-Asian hate speech. Extending this technique, we
introduce a novel metric, Degree of Explicitness, for a single instance and
show that the new metric is beneficial in suggesting out-of-domain unlabeled
examples to effectively enrich the training data with informative, implicitly
abusive texts.
- Abstract(参考訳): 特にコンテンツモデレーションのような人間の健康に影響を与えるアプリケーションにとって、常に変化する現実世界のデータ上での機械学習モデルのロバスト性は重要だ。
新たな種類の乱用言語は、現在の出来事(例えば、COVID-19)に対応するオンラインの議論において絶えず現れ、デプロイされた乱用検知システムは、正確性を維持するために定期的に更新されるべきである。
本稿では,一般的な乱用言語分類器は,ドメイン外乱用発話の検出には極めて信頼性が高いが,新しいタイプの微妙で暗黙的な乱用は検出できないことを示す。
次に,コンピュータビジョンによるテスト概念活性化ベクター(tcav)法に基づく解釈手法を提案する。この手法を用いて,訓練されたモデルから明示的・暗黙的な乱用言語の人間定義概念への感受性を定量化し,新型データを用いたモデルの一般化可能性を説明する。
このテクニックを拡張して、新しいメトリクスである明示性の度合を導入し、新しいメトリクスがドメイン外無ラベルの例を提案し、有益で暗黙的に乱用されたテキストでトレーニングデータを効果的に強化するのに役立つことを示す。
関連論文リスト
- Enhancing AI-based Generation of Software Exploits with Contextual Information [9.327315119028809]
この研究では、実際のシェルコードからなるデータセットを使用して、さまざまなシナリオでモデルを評価する。
実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。
モデルは不要なコンテキストをフィルタリングし、攻撃的なセキュリティコードの生成において高いレベルの精度を維持する能力を示している。
論文 参考訳(メタデータ) (2024-08-05T11:52:34Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning [20.643270151774182]
フェデレートラーニング(FL)を通じてデバイス上でのユーザ修正から継続的に学習することを目指す。
我々は、モデルがこれまで遭遇していなかった新しい用語をターゲットとして、長い尾の単語を学習し、破滅的な忘れ事をする手法を探究する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-29T21:04:10Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Estimating the Adversarial Robustness of Attributions in Text with
Transformers [44.745873282080346]
リプシッツ連続性に基づくテキスト分類における帰属ロバスト性(AR)の新たな定義を確立する。
そこで我々は,テキスト分類における属性の厳密な推定を行う強力な敵であるTransformerExplanationAttack (TEA)を提案する。
論文 参考訳(メタデータ) (2022-12-18T20:18:59Z) - No Time Like the Present: Effects of Language Change on Automated
Comment Moderation [0.0]
オンラインヘイトの拡大は、コメント欄を主催する新聞にとって重大な問題となっている。
自動乱用言語検出に機械学習と自然言語処理を使うことへの関心が高まっている。
我々は、ナイーブなML技術で訓練された分類器が将来のデータで過小評価されることを、ドイツの新聞のコメントデータセットを使って示す。
論文 参考訳(メタデータ) (2022-07-08T16:39:21Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。