Fugu-MT 論文翻訳(概要): Efficacy of Utilizing Large Language Models to Detect Public Threat Posted Online

論文の概要: Efficacy of Utilizing Large Language Models to Detect Public Threat Posted Online

arxiv url: http://arxiv.org/abs/2401.02974v1
Date: Fri, 29 Dec 2023 16:42:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 09:31:35.599502
Title: Efficacy of Utilizing Large Language Models to Detect Public Threat Posted Online
Title（参考訳）: 大規模言語モデルを用いたオンライン投稿の脅威検出の有効性
Authors: Taeksoo Kwon (Algorix Convergence Research Office), Connor Kim (Centennial High School)
Abstract要約: 本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出することの有効性について検討する。データ収集ツールは、人気の高い韓国のオンラインコミュニティから投稿を収集するために開発された。 GPT-4は総じて97.9%の非脅威と100%の脅威の精度で性能が向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper examines the efficacy of utilizing large language models (LLMs) to detect public threats posted online. Amid rising concerns over the spread of threatening rhetoric and advance notices of violence, automated content analysis techniques may aid in early identification and moderation. Custom data collection tools were developed to amass post titles from a popular Korean online community, comprising 500 non-threat examples and 20 threats. Various LLMs (GPT-3.5, GPT-4, PaLM) were prompted to classify individual posts as either "threat" or "safe." Statistical analysis found all models demonstrated strong accuracy, passing chi-square goodness of fit tests for both threat and non-threat identification. GPT-4 performed best overall with 97.9% non-threat and 100% threat accuracy. Affordability analysis also showed PaLM API pricing as highly cost-efficient. The findings indicate LLMs can effectively augment human content moderation at scale to help mitigate emerging online risks. However, biases, transparency, and ethical oversight remain vital considerations before real-world implementation.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)を用いてオンライン投稿された公的な脅威を検出する方法を提案する。暴力に対するレトリックや先進的な警告の拡散に対する懸念が高まっている中、自動コンテンツ分析技術は早期の識別とモデレーションに役立つ可能性がある。カスタムデータ収集ツールは、500の非脅威例と20の脅威からなる、韓国の人気のあるオンラインコミュニティからの投稿タイトルを集めるために開発された。様々なLSM(GPT-3.5、GPT-4、PaLM)は個々のポストを「脅威」または「安全」に分類するよう促された。統計的分析では、全てのモデルが強い精度を示し、脅威と非脅威の識別の両方に対して適合性テストの2乗精度を渡した。 GPT-4は総じて97.9%の非脅威と100%の脅威精度で性能が向上した。 PaLM APIの価格設定はコスト効率が高かった。以上の結果から,LLMは大規模コンテンツモデレーションを効果的に強化し,新たなオンラインリスクを軽減できる可能性が示唆された。しかし、バイアス、透明性、倫理的監視は、現実の実施前に重要な考慮事項である。

関連論文リスト

When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text [13.14749943120523]
ソーシャルメディアは、オンライン・インフルエンス・キャンペーンにおいて重要な攻撃源となっている。我々は、オープンソース、クローズドソース、微調整されたLLMの組み合わせから、505,159のAI生成ソーシャルメディアポストのデータセットを作成します。典型的な研究仮定の下ではポストを検出できるが、攻撃者が細調整されたモデルを公開しないというより現実的な仮定の下では、検出可能性は劇的に低下する。
論文参考訳（メタデータ） (2025-06-11T17:51:28Z)
Automated Profile Inference with Language Model Agents [67.32226960040514]
自動プロファイル推論(Automatic Profile Inference)と呼ばれる,LLMがオンラインの偽名にもたらす新たな脅威について検討する。相手は、LDMに対して、疑似プラットフォーム上で公開されているユーザアクティビティから、機密性の高い個人属性を自動的に取り除き、抽出するように指示することができる。実世界のシナリオにおけるこのような脅威の可能性を評価するために,AutoProfilerという自動プロファイリングフレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T13:05:17Z)
The Rising Threat to Emerging AI-Powered Search Engines [20.796363884152466]
7 つの生産 AIPSE の安全リスク定量化を行う。その結果,AIPSEは悪質なURLを含む有害なコンテンツを頻繁に生成することがわかった。我々は,GPT-4oベースのコンテンツリファインメントツールとXGBoostベースのURL検出器を備えたエージェントベースディフェンスを開発した。
論文参考訳（メタデータ） (2025-02-07T14:15:46Z)
STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文参考訳（メタデータ） (2024-09-20T18:34:38Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
Supporting Human Raters with the Detection of Harmful Content using Large Language Models [8.580258386804282]
大規模言語モデル (LLMs) は, 人間の判断と比較して90%の精度を達成できることを実証した。人間の評価とLLMを統合した5つのデザインパターンを提案する。提案した手法を現実世界のレビューキューで試行することで、利用可能な人間のレーダ容量の最適化が41.5%向上したことを共有しています。
論文参考訳（メタデータ） (2024-06-18T17:12:50Z)
SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection [0.0]
フィッシングは、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を明らかにすることで、組織にとって大きな脅威となる。本稿では,Large Language Models (LLMs) の顕著な性能を,テキスト分類のような特定のタスクに活用できるかどうかを検討する。 LLMがいかにして説得力のあるフィッシングメールを生成するかを示し、詐欺を見つけるのを難しくする。
論文参考訳（メタデータ） (2024-06-10T13:13:39Z)
Safety in Graph Machine Learning: Threats and Safeguards [84.26643884225834]
社会的利益にもかかわらず、最近の研究はグラフMLモデルの普及に伴う重要な安全性上の懸念を浮き彫りにしている。安全性を重視した設計が欠如しているため、これらのモデルは信頼性の低い予測を導き、一般化性の低下を示し、データの機密性を侵害することができる。金融詐欺検出のような高額なシナリオでは、これらの脆弱性は個人と社会の両方を全般的に危険に晒す可能性がある。
論文参考訳（メタデータ） (2024-05-17T18:11:11Z)
Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning [4.475514208635884]
本研究は, プライバシー保護型サイバー脅威検出のための学習の可能性について, 有効性, ビザンチンレジリエンス, 効率の観点から, 体系的に検証した。 FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。現実的な脅威モデルの下では、FLはデータ中毒とモデル中毒の両方の攻撃に対して抵抗性があることが判明した。
論文参考訳（メタデータ） (2024-04-08T01:16:56Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Reducing Privacy Risks in Online Self-Disclosures with Language Models [26.273214719939894]
我々は19の自己開示カテゴリの分類を開発し,4.8Kの注釈付き開示スパンからなる大きなコーパスをキュレートした。検出のための言語モデルを微調整し、部分的なスパンを65%以上達成しました。本稿では、開示をあまり具体的でない用語に言い換える自己開示抽象化の課題を紹介する。
論文参考訳（メタデータ） (2023-11-16T03:28:43Z)
Locally Differentially Private Document Generation Using Zero Shot Prompting [61.20953109732442]
本稿では,DP-Prompt と呼ばれる局所的に異なるプライベートなメカニズムを提案し,作者の匿名化攻撃に対処する。 DP-PromptをChatGPT(gpt-3.5)のような強力な言語モデルで使用すると、匿名化攻撃の成功率の顕著な低下が観察される。
論文参考訳（メタデータ） (2023-10-24T18:25:13Z)
CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文参考訳（メタデータ） (2023-06-28T14:14:44Z)
Towards Adversarial Patch Analysis and Certified Defense against Crowd Counting [61.99564267735242]
安全クリティカルな監視システムの重要性から、群衆のカウントは多くの注目を集めています。近年の研究では、ディープニューラルネットワーク(DNN)の手法が敵の攻撃に弱いことが示されている。群衆カウントモデルのロバスト性を評価するために,Momentumを用いた攻撃戦略としてAdversarial Patch Attackを提案する。
論文参考訳（メタデータ） (2021-04-22T05:10:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。