論文の概要: Explainable Abuse Detection as Intent Classification and Slot Filling
- arxiv url: http://arxiv.org/abs/2210.02659v1
- Date: Thu, 6 Oct 2022 03:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:17:21.715296
- Title: Explainable Abuse Detection as Intent Classification and Slot Filling
- Title(参考訳): 意図分類とスロット充填としての説明可能な乱用検出
- Authors: Agostina Calabrese, Bj\"orn Ross, Mirella Lapata
- Abstract要約: 我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 66.80201541759409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To proactively offer social media users a safe online experience, there is a
need for systems that can detect harmful posts and promptly alert platform
moderators. In order to guarantee the enforcement of a consistent policy,
moderators are provided with detailed guidelines. In contrast, most
state-of-the-art models learn what abuse is from labelled examples and as a
result base their predictions on spurious cues, such as the presence of group
identifiers, which can be unreliable. In this work we introduce the concept of
policy-aware abuse detection, abandoning the unrealistic expectation that
systems can reliably learn which phenomena constitute abuse from inspecting the
data alone. We propose a machine-friendly representation of the policy that
moderators wish to enforce, by breaking it down into a collection of intents
and slots. We collect and annotate a dataset of 3,535 English posts with such
slots, and show how architectures for intent classification and slot filling
can be used for abuse detection, while providing a rationale for model
decisions.
- Abstract(参考訳): ソーシャルメディアユーザーに安全なオンライン体験を提供するためには、有害な投稿を検出し、プラットフォームモデレーターに即座に警告するシステムが必要である。
一貫性のあるポリシーの施行を保証するため、モデレーターには詳細なガイドラインが提供される。
対照的に、最先端のモデルの多くはラベル付き例から何が悪用であるかを学び、その結果、信頼できないグループ識別子の存在など、散発的な手がかりに基づく予測を行う。
本研究では,データのみを検査することで,どの現象が悪用に影響を及ぼすかを,システムが確実に学習できるという非現実的な期待を放棄する,政策意識による悪用検出の概念を導入する。
我々は,モデレーターが強制しようとする方針を,意図とスロットの集合に分割することで,機械にやさしく表現することを提案する。
このようなスロットで3,535の英語投稿のデータセットを収集して注釈付けし、意図分類とスロット充填のアーキテクチャが乱用検出にどのように役立つかを示しながら、モデル決定の根拠を提供する。
関連論文リスト
- Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Cream Skimming the Underground: Identifying Relevant Information Points
from Online Forums [0.16252563723817934]
本稿では,地下のハッキングフォーラムをモニタリングすることで,野生の脆弱性の悪用を検出するための機械学習アプローチを提案する。
我々は、CVEを引用するスレッドをフィルタリングし、それらをProof-of-Concept, Weaponization, Exploitationとラベル付けできる教師付き機械学習モデルを開発した。
論文 参考訳(メタデータ) (2023-08-03T16:52:42Z) - Rule By Example: Harnessing Logical Rules for Explainable Hate Speech
Detection [13.772240348963303]
Rule By Example(RBE)は、テキストコンテンツモデレーションのタスクに対する論理規則から学習するための、新規なコントラスト学習手法である。
RBEはルール基底の予測を提供することができ、典型的なディープラーニングベースのアプローチと比較して説明可能でカスタマイズ可能な予測を可能にする。
論文 参考訳(メタデータ) (2023-07-24T16:55:37Z) - Measuring Re-identification Risk [72.6715574626418]
コンパクトなユーザ表現における再識別リスクを測定するための新しい理論的枠組みを提案する。
我々のフレームワークは、攻撃者がその表現からユーザのアイデンティティを取得できる確率を正式に制限します。
当社のフレームワークが、関心に基づく広告のためのChromeのトピックAPIのような、重要な現実世界のアプリケーションをモデル化するのに十分な一般性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:27:36Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Against Algorithmic Exploitation of Human Vulnerabilities [2.6918074738262194]
我々は、機械学習モデルが故意に脆弱性をモデル化することを懸念している。
一般的な脆弱性を記述し、アルゴリズムによる意思決定においてそれらが役割を担っている可能性を示す。
本稿では,脆弱性モデリングの可能性を検出する手法の一連の要件を提案する。
論文 参考訳(メタデータ) (2023-01-12T13:15:24Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Semantic Novelty Detection via Relational Reasoning [17.660958043781154]
本稿では,関係推論に基づく表現学習パラダイムを提案する。
実験の結果,この知識は様々なシナリオに直接伝達可能であることがわかった。
クローズドセット認識モデルを信頼できるオープンセットに変換するプラグイン・アンド・プレイモジュールとして利用することができる。
論文 参考訳(メタデータ) (2022-07-18T15:49:27Z) - Sayer: Using Implicit Feedback to Optimize System Policies [63.992191765269396]
我々は、暗黙のフィードバックを活用して、新しいシステムポリシーを評価し、訓練する方法論を開発する。
Sayerは、強化学習の2つのアイデアに基づいて、既存のポリシーで収集されたデータを活用する。
Sayer氏は任意のポリシーを正確に評価し、生産ポリシーを上回るような新しいポリシーをトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-10-28T04:16:56Z) - Pattern Learning for Detecting Defect Reports and Improvement Requests
in App Reviews [4.460358746823561]
本研究では、レビューを欠陥報告と改善の要求として分類することで、この行動可能な洞察の欠如を狙う新しいアプローチに従う。
我々は,遺伝的プログラミングを通じて語彙・意味パターンを学習できる教師付きシステムを採用している。
自動学習パターンは手作業で生成したパターンよりも優れており、生成可能であることを示す。
論文 参考訳(メタデータ) (2020-04-19T08:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。