論文の概要: Efficacy of Utilizing Large Language Models to Detect Public Threat
Posted Online
- arxiv url: http://arxiv.org/abs/2401.02974v1
- Date: Fri, 29 Dec 2023 16:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:31:35.599502
- Title: Efficacy of Utilizing Large Language Models to Detect Public Threat
Posted Online
- Title(参考訳): 大規模言語モデルを用いたオンライン投稿の脅威検出の有効性
- Authors: Taeksoo Kwon (Algorix Convergence Research Office), Connor Kim
(Centennial High School)
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出することの有効性について検討する。
データ収集ツールは、人気の高い韓国のオンラインコミュニティから投稿を収集するために開発された。
GPT-4は総じて97.9%の非脅威と100%の脅威の精度で性能が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines the efficacy of utilizing large language models (LLMs) to
detect public threats posted online. Amid rising concerns over the spread of
threatening rhetoric and advance notices of violence, automated content
analysis techniques may aid in early identification and moderation. Custom data
collection tools were developed to amass post titles from a popular Korean
online community, comprising 500 non-threat examples and 20 threats. Various
LLMs (GPT-3.5, GPT-4, PaLM) were prompted to classify individual posts as
either "threat" or "safe." Statistical analysis found all models demonstrated
strong accuracy, passing chi-square goodness of fit tests for both threat and
non-threat identification. GPT-4 performed best overall with 97.9% non-threat
and 100% threat accuracy. Affordability analysis also showed PaLM API pricing
as highly cost-efficient. The findings indicate LLMs can effectively augment
human content moderation at scale to help mitigate emerging online risks.
However, biases, transparency, and ethical oversight remain vital
considerations before real-world implementation.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出する方法を提案する。
暴力に対するレトリックや先進的な警告の拡散に対する懸念が高まっている中、自動コンテンツ分析技術は早期の識別とモデレーションに役立つ可能性がある。
カスタムデータ収集ツールは、500の非脅威例と20の脅威からなる、韓国の人気のあるオンラインコミュニティからの投稿タイトルを集めるために開発された。
様々なLSM(GPT-3.5、GPT-4、PaLM)は個々のポストを「脅威」または「安全」に分類するよう促された。
統計的分析では、全てのモデルが強い精度を示し、脅威と非脅威の識別の両方に対して適合性テストの2乗精度を渡した。
GPT-4は総じて97.9%の非脅威と100%の脅威精度で性能が向上した。
PaLM APIの価格設定はコスト効率が高かった。
以上の結果から,LLMは大規模コンテンツモデレーションを効果的に強化し,新たなオンラインリスクを軽減できる可能性が示唆された。
しかし、バイアス、透明性、倫理的監視は、現実の実施前に重要な考慮事項である。
関連論文リスト
- STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Supporting Human Raters with the Detection of Harmful Content using Large Language Models [8.580258386804282]
大規模言語モデル (LLMs) は, 人間の判断と比較して90%の精度を達成できることを実証した。
人間の評価とLLMを統合した5つのデザインパターンを提案する。
提案した手法を現実世界のレビューキューで試行することで、利用可能な人間のレーダ容量の最適化が41.5%向上したことを共有しています。
論文 参考訳(メタデータ) (2024-06-18T17:12:50Z) - SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection [0.0]
フィッシングは、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を明らかにすることで、組織にとって大きな脅威となる。
本稿では,Large Language Models (LLMs) の顕著な性能を,テキスト分類のような特定のタスクに活用できるかどうかを検討する。
LLMがいかにして説得力のあるフィッシングメールを生成するかを示し、詐欺を見つけるのを難しくする。
論文 参考訳(メタデータ) (2024-06-10T13:13:39Z) - Safety in Graph Machine Learning: Threats and Safeguards [84.26643884225834]
社会的利益にもかかわらず、最近の研究はグラフMLモデルの普及に伴う重要な安全性上の懸念を浮き彫りにしている。
安全性を重視した設計が欠如しているため、これらのモデルは信頼性の低い予測を導き、一般化性の低下を示し、データの機密性を侵害することができる。
金融詐欺検出のような高額なシナリオでは、これらの脆弱性は個人と社会の両方を全般的に危険に晒す可能性がある。
論文 参考訳(メタデータ) (2024-05-17T18:11:11Z) - Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning [4.475514208635884]
本研究は, プライバシー保護型サイバー脅威検出のための学習の可能性について, 有効性, ビザンチンレジリエンス, 効率の観点から, 体系的に検証した。
FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。
現実的な脅威モデルの下では、FLはデータ中毒とモデル中毒の両方の攻撃に対して抵抗性があることが判明した。
論文 参考訳(メタデータ) (2024-04-08T01:16:56Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Reducing Privacy Risks in Online Self-Disclosures with Language Models [26.273214719939894]
我々は19の自己開示カテゴリの分類を開発し,4.8Kの注釈付き開示スパンからなる大きなコーパスをキュレートした。
検出のための言語モデルを微調整し、部分的なスパンを65%以上達成しました。
本稿では、開示をあまり具体的でない用語に言い換える自己開示抽象化の課題を紹介する。
論文 参考訳(メタデータ) (2023-11-16T03:28:43Z) - Locally Differentially Private Document Generation Using Zero Shot
Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。
DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文 参考訳(メタデータ) (2023-10-24T18:25:13Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Towards Adversarial Patch Analysis and Certified Defense against Crowd
Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。
近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。
群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文 参考訳(メタデータ) (2021-04-22T05:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。