論文の概要: Explainable Abuse Detection as Intent Classification and Slot Filling
- arxiv url: http://arxiv.org/abs/2210.02659v1
- Date: Thu, 6 Oct 2022 03:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:17:21.715296
- Title: Explainable Abuse Detection as Intent Classification and Slot Filling
- Title(参考訳): 意図分類とスロット充填としての説明可能な乱用検出
- Authors: Agostina Calabrese, Bj\"orn Ross, Mirella Lapata
- Abstract要約: 我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 66.80201541759409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To proactively offer social media users a safe online experience, there is a
need for systems that can detect harmful posts and promptly alert platform
moderators. In order to guarantee the enforcement of a consistent policy,
moderators are provided with detailed guidelines. In contrast, most
state-of-the-art models learn what abuse is from labelled examples and as a
result base their predictions on spurious cues, such as the presence of group
identifiers, which can be unreliable. In this work we introduce the concept of
policy-aware abuse detection, abandoning the unrealistic expectation that
systems can reliably learn which phenomena constitute abuse from inspecting the
data alone. We propose a machine-friendly representation of the policy that
moderators wish to enforce, by breaking it down into a collection of intents
and slots. We collect and annotate a dataset of 3,535 English posts with such
slots, and show how architectures for intent classification and slot filling
can be used for abuse detection, while providing a rationale for model
decisions.
- Abstract(参考訳): ソーシャルメディアユーザーに安全なオンライン体験を提供するためには、有害な投稿を検出し、プラットフォームモデレーターに即座に警告するシステムが必要である。
一貫性のあるポリシーの施行を保証するため、モデレーターには詳細なガイドラインが提供される。
対照的に、最先端のモデルの多くはラベル付き例から何が悪用であるかを学び、その結果、信頼できないグループ識別子の存在など、散発的な手がかりに基づく予測を行う。
本研究では,データのみを検査することで,どの現象が悪用に影響を及ぼすかを,システムが確実に学習できるという非現実的な期待を放棄する,政策意識による悪用検出の概念を導入する。
我々は,モデレーターが強制しようとする方針を,意図とスロットの集合に分割することで,機械にやさしく表現することを提案する。
このようなスロットで3,535の英語投稿のデータセットを収集して注釈付けし、意図分類とスロット充填のアーキテクチャが乱用検出にどのように役立つかを示しながら、モデル決定の根拠を提供する。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation [86.05704141217036]
Black-boxファインタニングは、最先端の言語モデルをユーザのニーズに適応するための、新たなインターフェースである。
本研究では,検出を回避しながら,モデル安全性を損なう手法である隠れ悪意のある微調整を導入する。
論文 参考訳(メタデータ) (2024-06-28T17:05:46Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - The Unappreciated Role of Intent in Algorithmic Moderation of Social Media Content [2.2618341648062477]
本稿では,コンテンツモデレーションシステムにおける意図の役割について考察する。
本研究は,意識と意図を捉える能力を評価するために,オンライン虐待に対するアート検出モデルとベンチマークトレーニングデータセットの現状をレビューする。
論文 参考訳(メタデータ) (2024-05-17T18:05:13Z) - Cream Skimming the Underground: Identifying Relevant Information Points
from Online Forums [0.16252563723817934]
本稿では,地下のハッキングフォーラムをモニタリングすることで,野生の脆弱性の悪用を検出するための機械学習アプローチを提案する。
我々は、CVEを引用するスレッドをフィルタリングし、それらをProof-of-Concept, Weaponization, Exploitationとラベル付けできる教師付き機械学習モデルを開発した。
論文 参考訳(メタデータ) (2023-08-03T16:52:42Z) - Rule By Example: Harnessing Logical Rules for Explainable Hate Speech
Detection [13.772240348963303]
Rule By Example(RBE)は、テキストコンテンツモデレーションのタスクに対する論理規則から学習するための、新規なコントラスト学習手法である。
RBEはルール基底の予測を提供することができ、典型的なディープラーニングベースのアプローチと比較して説明可能でカスタマイズ可能な予測を可能にする。
論文 参考訳(メタデータ) (2023-07-24T16:55:37Z) - Measuring Re-identification Risk [72.6715574626418]
コンパクトなユーザ表現における再識別リスクを測定するための新しい理論的枠組みを提案する。
我々のフレームワークは、攻撃者がその表現からユーザのアイデンティティを取得できる確率を正式に制限します。
当社のフレームワークが、関心に基づく広告のためのChromeのトピックAPIのような、重要な現実世界のアプリケーションをモデル化するのに十分な一般性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:27:36Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Semantic Novelty Detection via Relational Reasoning [17.660958043781154]
本稿では,関係推論に基づく表現学習パラダイムを提案する。
実験の結果,この知識は様々なシナリオに直接伝達可能であることがわかった。
クローズドセット認識モデルを信頼できるオープンセットに変換するプラグイン・アンド・プレイモジュールとして利用することができる。
論文 参考訳(メタデータ) (2022-07-18T15:49:27Z) - Pattern Learning for Detecting Defect Reports and Improvement Requests
in App Reviews [4.460358746823561]
本研究では、レビューを欠陥報告と改善の要求として分類することで、この行動可能な洞察の欠如を狙う新しいアプローチに従う。
我々は,遺伝的プログラミングを通じて語彙・意味パターンを学習できる教師付きシステムを採用している。
自動学習パターンは手作業で生成したパターンよりも優れており、生成可能であることを示す。
論文 参考訳(メタデータ) (2020-04-19T08:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。