論文の概要: Efficacy of Utilizing Large Language Models to Detect Public Threat
Posted Online
- arxiv url: http://arxiv.org/abs/2401.02974v1
- Date: Fri, 29 Dec 2023 16:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:31:35.599502
- Title: Efficacy of Utilizing Large Language Models to Detect Public Threat
Posted Online
- Title(参考訳): 大規模言語モデルを用いたオンライン投稿の脅威検出の有効性
- Authors: Taeksoo Kwon (Algorix Convergence Research Office), Connor Kim
(Centennial High School)
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出することの有効性について検討する。
データ収集ツールは、人気の高い韓国のオンラインコミュニティから投稿を収集するために開発された。
GPT-4は総じて97.9%の非脅威と100%の脅威の精度で性能が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines the efficacy of utilizing large language models (LLMs) to
detect public threats posted online. Amid rising concerns over the spread of
threatening rhetoric and advance notices of violence, automated content
analysis techniques may aid in early identification and moderation. Custom data
collection tools were developed to amass post titles from a popular Korean
online community, comprising 500 non-threat examples and 20 threats. Various
LLMs (GPT-3.5, GPT-4, PaLM) were prompted to classify individual posts as
either "threat" or "safe." Statistical analysis found all models demonstrated
strong accuracy, passing chi-square goodness of fit tests for both threat and
non-threat identification. GPT-4 performed best overall with 97.9% non-threat
and 100% threat accuracy. Affordability analysis also showed PaLM API pricing
as highly cost-efficient. The findings indicate LLMs can effectively augment
human content moderation at scale to help mitigate emerging online risks.
However, biases, transparency, and ethical oversight remain vital
considerations before real-world implementation.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出する方法を提案する。
暴力に対するレトリックや先進的な警告の拡散に対する懸念が高まっている中、自動コンテンツ分析技術は早期の識別とモデレーションに役立つ可能性がある。
カスタムデータ収集ツールは、500の非脅威例と20の脅威からなる、韓国の人気のあるオンラインコミュニティからの投稿タイトルを集めるために開発された。
様々なLSM(GPT-3.5、GPT-4、PaLM)は個々のポストを「脅威」または「安全」に分類するよう促された。
統計的分析では、全てのモデルが強い精度を示し、脅威と非脅威の識別の両方に対して適合性テストの2乗精度を渡した。
GPT-4は総じて97.9%の非脅威と100%の脅威精度で性能が向上した。
PaLM APIの価格設定はコスト効率が高かった。
以上の結果から,LLMは大規模コンテンツモデレーションを効果的に強化し,新たなオンラインリスクを軽減できる可能性が示唆された。
しかし、バイアス、透明性、倫理的監視は、現実の実施前に重要な考慮事項である。
関連論文リスト
- Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
本研究は多言語モデルに対する言語間バックドア攻撃に焦点を当てている。
本研究では,教育指導データが有毒でない言語において,教育指導データが1つか2つの言語でどのように影響するかを検討する。
本手法は, mT5, BLOOM, GPT-3.5-turbo などのモデルにおいて, 高い攻撃成功率を示し, 複数の言語で95%を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning [4.475514208635884]
本研究は, プライバシー保護型サイバー脅威検出のための学習の可能性について, 有効性, ビザンチンレジリエンス, 効率の観点から, 体系的に検証した。
FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。
現実的な脅威モデルの下では、FLはデータ中毒とモデル中毒の両方の攻撃に対して抵抗性があることが判明した。
論文 参考訳(メタデータ) (2024-04-08T01:16:56Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Automatic and Universal Prompt Injection Attacks against Large Language
Models [38.694912482525446]
LLM(Large Language Models)は、命令を解釈し、従う能力によって、人間の言語を処理し、生成する際、優れた言語モデルである。
これらの攻撃はアプリケーションを操作して、ユーザの実際の要求から逸脱して、攻撃者のインジェクトされたコンテンツに対応する応答を生成する。
本稿では,プロンプトインジェクション攻撃の目的を理解するための統合フレームワークを導入し,高効率で普遍的なインジェクションデータを生成するための自動勾配ベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T23:46:20Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Reducing Privacy Risks in Online Self-Disclosures with Language Models [27.590704005745874]
我々は19の自己開示カテゴリの分類を開発し,4.8Kの注釈付き開示スパンからなる大きなコーパスをキュレートした。
検出のための言語モデルを微調整し、部分的なスパンを65%以上達成しました。
本稿では, 自己開示抽象化の課題について紹介する。これは, 情報開示を実用性を維持しつつ, あまり具体的でない用語に言い換えるものである。
論文 参考訳(メタデータ) (2023-11-16T03:28:43Z) - SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文 参考訳(メタデータ) (2023-11-14T18:33:43Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - User-Centered Security in Natural Language Processing [0.7106986689736825]
自然言語処理(NLP)におけるユーザ中心のセキュリティの枠組みの提案
NLP内の2つのセキュリティドメインに重点を置いている。
論文 参考訳(メタデータ) (2023-01-10T22:34:19Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。