論文の概要: Enabling Contextual Soft Moderation on Social Media through Contrastive Textual Deviation
- arxiv url: http://arxiv.org/abs/2407.20910v1
- Date: Tue, 30 Jul 2024 15:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:40:36.057547
- Title: Enabling Contextual Soft Moderation on Social Media through Contrastive Textual Deviation
- Title(参考訳): コントラスト的テクスト偏差によるソーシャルメディアの文脈ソフトモデレーションの実現
- Authors: Pujan Paudel, Mohammad Hammas Saeed, Rebecca Auger, Chris Wells, Gianluca Stringhini,
- Abstract要約: 既存のソフトモデレーションパイプラインにスタンス検出を組み込むことを提案する。
提案手法は文脈的偽陽性を20%から2.1%に削減できることを示す。
- 参考スコア(独自算出の注目度): 11.577310745082894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated soft moderation systems are unable to ascertain if a post supports or refutes a false claim, resulting in a large number of contextual false positives. This limits their effectiveness, for example undermining trust in health experts by adding warnings to their posts or resorting to vague warnings instead of granular fact-checks, which result in desensitizing users. In this paper, we propose to incorporate stance detection into existing automated soft-moderation pipelines, with the goal of ruling out contextual false positives and providing more precise recommendations for social media content that should receive warnings. We develop a textual deviation task called Contrastive Textual Deviation (CTD) and show that it outperforms existing stance detection approaches when applied to soft moderation.We then integrate CTD into the stateof-the-art system for automated soft moderation Lambretta, showing that our approach can reduce contextual false positives from 20% to 2.1%, providing another important building block towards deploying reliable automated soft moderation tools on social media.
- Abstract(参考訳): 自動ソフトモデレーションシステムは、ポストが偽のクレームを支持したり反証したりするかどうかを確認できないため、多くの文脈的偽陽性が生じる。
例えば、投稿に警告を追加したり、細かい事実チェックではなくあいまいな警告を頼りにすることで、ユーザーを嫌がらせてしまう。
本稿では,既存の自動ソフトモデレーションパイプラインにスタンス検出を取り入れ,文脈的偽陽性を排除し,警告を受けるべきソーシャルメディアコンテンツに対してより正確なレコメンデーションを提供することを目的としている。
本研究では,CTD(Contrastive Textual Deviation)と呼ばれるテキスト分割タスクを開発し,ソフトモデレーションに適用した場合に既存のスタンス検出手法よりも優れており,その上でCTDを最先端のソフトモデレーションシステムに統合することにより,文脈的偽陽性を20%から2.1%に低減し,ソーシャルメディアに信頼性の高いソフトモデレーションツールをデプロイするための重要なビルディングブロックを提供する。
関連論文リスト
- TaeBench: Improving Quality of Toxic Adversarial Examples [10.768188905349874]
本稿では, 生成した有害な逆数例(TAE)の品質管理のためのアノテーションパイプラインを提案する。
我々は,TAEの品質要件を評価するために,モデルに基づく自動アノテーションと人間による品質検証を設計する。
我々は,TaeBenchがSOTA毒性量モデレーションモデルやサービスを効果的に移行攻撃できることを示す。
論文 参考訳(メタデータ) (2024-10-08T00:14:27Z) - Silencing the Risk, Not the Whistle: A Semi-automated Text Sanitization Tool for Mitigating the Risk of Whistleblower Re-Identification [4.082799056366928]
ホイッスルブローイングは、公共部門と民間部門の両方で透明性と説明責任を確保するために不可欠である。
EUのWBDのような法的措置は、その範囲と有効性に制限されている。
現在のテキストのサニタイズツールは、一大のアプローチを踏襲し、匿名性を極端に限定している。
論文 参考訳(メタデータ) (2024-05-02T08:52:29Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - Automated Detection of Doxing on Twitter [3.463438487417909]
ドキシング(ドキシング)とは、本人の同意なしに個人情報を機密に開示する行為である。
そこで本稿では,Twitter上での機密情報による第三者の開示を自動的に検出する手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-02-02T05:04:34Z) - Repairing Adversarial Texts through Perturbation [11.65808514109149]
ニューラルネットワークは敵の摂動によって攻撃を受けることが知られている。
逆行性摂動は 逆行性訓練など 緩和法を適用した後も 可能。
本稿では,実行時に相手テキストを自動的に修復する手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T03:57:02Z) - Sample-Efficient Safety Assurances using Conformal Prediction [57.92013073974406]
早期警戒システムは、安全でない状況が差し迫ったときに警告を提供することができる。
安全性を確実に向上させるためには、これらの警告システムは証明可能な偽陰性率を持つべきである。
本稿では,共形予測と呼ばれる統計的推論手法とロボット・環境力学シミュレータを組み合わせたフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-28T23:00:30Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。