論文の概要: Moderating New Waves of Online Hate with Chain-of-Thought Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2312.15099v2
- Date: Fri, 10 May 2024 17:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 20:17:21.499093
- Title: Moderating New Waves of Online Hate with Chain-of-Thought Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるチェーン・オブ・サート推論によるオンラインヘイトの変化
- Authors: Nishant Vishwamitra, Keyan Guo, Farhan Tajwar Romit, Isabelle Ondracek, Long Cheng, Ziming Zhao, Hongxin Hu,
- Abstract要約: 我々は、オンライン憎悪の新しい波を効果的に緩和する、HATEGUARDと呼ばれる新しいフレームワークを提案する。
我々の研究は、オンラインヘイトの新しい波の出現によって引き起こされる深刻な脅威を強調し、この脅威に現実的に対処するパラダイムシフトを表している。
- 参考スコア(独自算出の注目度): 11.05542708910122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online hate is an escalating problem that negatively impacts the lives of Internet users, and is also subject to rapid changes due to evolving events, resulting in new waves of online hate that pose a critical threat. Detecting and mitigating these new waves present two key challenges: it demands reasoning-based complex decision-making to determine the presence of hateful content, and the limited availability of training samples hinders updating the detection model. To address this critical issue, we present a novel framework called HATEGUARD for effectively moderating new waves of online hate. HATEGUARD employs a reasoning-based approach that leverages the recently introduced chain-of-thought (CoT) prompting technique, harnessing the capabilities of large language models (LLMs). HATEGUARD further achieves prompt-based zero-shot detection by automatically generating and updating detection prompts with new derogatory terms and targets in new wave samples to effectively address new waves of online hate. To demonstrate the effectiveness of our approach, we compile a new dataset consisting of tweets related to three recently witnessed new waves: the 2022 Russian invasion of Ukraine, the 2021 insurrection of the US Capitol, and the COVID-19 pandemic. Our studies reveal crucial longitudinal patterns in these new waves concerning the evolution of events and the pressing need for techniques to rapidly update existing moderation tools to counteract them. Comparative evaluations against state-of-the-art tools illustrate the superiority of our framework, showcasing a substantial 22.22% to 83.33% improvement in detecting the three new waves of online hate. Our work highlights the severe threat posed by the emergence of new waves of online hate and represents a paradigm shift in addressing this threat practically.
- Abstract(参考訳): オンライン憎悪はインターネットユーザーの生活に悪影響を及ぼすエスカレートする問題であり、進化する出来事によって急激な変化を招き、新たなオンライン憎悪の波が重大な脅威をもたらす。
これらの新たな波の検出と緩和は、ヘイトフルコンテンツの存在を判断するために推論に基づく複雑な意思決定を要求することと、トレーニングサンプルの可用性の制限によって検出モデルの更新が妨げられる、という2つの大きな課題をもたらす。
この重要な問題に対処するために、オンライン憎悪の新しい波を効果的に緩和するHATEGUARDという新しいフレームワークを提案する。
HATEGUARDは、最近導入されたチェーン・オブ・ソート(CoT)プロンプト技術を活用して、大規模言語モデル(LLM)の機能を活用する推論ベースのアプローチを採用している。
HATEGUARDはさらに、新しい嫌がらせの新たな波に効果的に対処するために、新しい嫌がらせ用語とターゲットで検出プロンプトを自動生成し、更新することで、プロンプトベースのゼロショット検出を実現する。
このアプローチの有効性を示すために、我々は、最近目撃された3つの新しい波、2022年のロシアによるウクライナ侵攻、2021年の米国議会議事堂の暴動、COVID-19パンデミックに関するツイートからなる新しいデータセットをコンパイルした。
本研究は,イベントの進化と,それに対応するための既存のモデレーションツールを迅速に更新する技術の必要性について,これらの新しい波における重要な縦断パターンを明らかにした。
最先端ツールに対する比較評価は、我々のフレームワークの優位性を示し、オンライン憎悪の3つの新しい波を検出する上で、実質的な22.22%から83.33%の改善を示している。
我々の研究は、オンラインヘイトの新しい波の出現によって引き起こされる深刻な脅威を強調し、この脅威に現実的に対処するパラダイムシフトを表している。
関連論文リスト
- Multi-stage Attack Detection and Prediction Using Graph Neural Networks: An IoT Feasibility Study [2.5325901958283126]
本稿では,ロッキード・マーティン・サイバー・キル・チェーンの簡易版に触発された3段階の侵入検知システムを提案する。
提案手法は3つのモデルから構成され、それぞれが共通の特徴を持つ攻撃群を検出する。
ToN IoTデータセットを使用して、さまざまなステージで平均94%のF1スコアを達成し、ベンチマークアプローチを上回りました。
論文 参考訳(メタデータ) (2024-04-28T22:11:24Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Toward Stronger Textual Attack Detectors [43.543044512474886]
LAROUSSEは、テキストの敵対攻撃を検出する新しいフレームワークである。
STAKEOUTは9つの一般的な攻撃方法、3つのデータセット、2つのトレーニング済みモデルからなる新しいベンチマークである。
論文 参考訳(メタデータ) (2023-10-21T13:01:29Z) - Efficient Network Representation for GNN-based Intrusion Detection [2.321323878201932]
過去数十年間、深刻な経済とプライバシーの被害を受けたサイバー攻撃の数が増加している。
本稿では,侵入検知タスクのトポロジ情報の提供を目的とした,フローのグラフとしての新しいネットワーク表現を提案する。
提案するグラフ構造を利用したグラフニューラルネットワーク(GNN)に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-11T16:10:12Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Consistent Valid Physically-Realizable Adversarial Attack against
Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。
DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文 参考訳(メタデータ) (2023-03-05T13:30:25Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。