論文の概要: Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection
- arxiv url: http://arxiv.org/abs/2408.10417v1
- Date: Mon, 19 Aug 2024 21:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:43:23.879781
- Title: Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection
- Title(参考訳): 大規模言語モデルキートピック検出を用いたAIアンチブリッシングシステムの開発
- Authors: Matthew Tassava, Cameron Kolodjski, Jordan Milbrath, Adorah Bishop, Nathan Flanders, Robbie Fetsch, Danielle Hanson, Jeremy Straub,
- Abstract要約: このシステムは、ソーシャルメディアやその他のメカニズムを介して、協調的ないじめ攻撃を特定するように設計されている。
大規模言語モデル(LLM)は、いじめ攻撃の強化されたシステムベースのネットワークモデルを構築するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents and evaluates work on the development of an artificial intelligence (AI) anti-bullying system. The system is designed to identify coordinated bullying attacks via social media and other mechanisms, characterize them and propose remediation and response activities to them. In particular, a large language model (LLM) is used to populate an enhanced expert system-based network model of a bullying attack. This facilitates analysis and remediation activity - such as generating report messages to social media companies - determination. The system is described and the efficacy of the LLM for populating the model is analyzed herein.
- Abstract(参考訳): 本稿では,人工知能(AI)アンチバブルシステムの開発について,その成果と評価を行う。
このシステムは、ソーシャルメディアやその他のメカニズムを介して協調的いじめ攻撃を識別し、それらを特徴付け、修復および対応活動を提案するように設計されている。
特に、大規模言語モデル(LLM)は、いじめ攻撃のエキスパートシステムベースのネットワークモデルを構築するために使用される。
これにより、ソーシャルメディア企業への報告メッセージの生成など、分析と修復活動の促進が図られる。
本システムについて述べるとともに,本モデルに対するLCMの有効性について述べる。
関連論文リスト
- Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks [16.457528502745415]
L-AutoDAは、Large Language Models (LLM) の生成能力を活用して、敵攻撃の設計を自動化する新しいアプローチである。
L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。
CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-01-27T07:57:20Z) - It Is Time To Steer: A Scalable Framework for Analysis-driven Attack Graph Generation [50.06412862964449]
アタックグラフ(AG)は、コンピュータネットワーク上のマルチステップ攻撃をモデル化し分析する最も適したソリューションである。
本稿では,AG生成のための分析駆動型フレームワークを紹介する。
定量的な統計的意義を持つAG生成が完了する前に、リアルタイムな攻撃経路解析を可能にする。
論文 参考訳(メタデータ) (2023-12-27T10:44:58Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Using Language Models to Detect Alarming Student Responses [0.0]
本稿は、人工知能を用いて警告する学生の反応を識別するシステムへの進歩について詳述する。
本システムは,学生の反応が自分に対する脅威であることを示すかどうかを評価するために,評価プラットフォームに組み込まれている。
論文 参考訳(メタデータ) (2023-05-12T18:07:00Z) - Attacks in Adversarial Machine Learning: A Systematic Survey from the
Life-cycle Perspective [69.25513235556635]
敵対的機械学習(英: Adversarial Machine Learning、AML)は、機械学習の逆行現象を研究する。
機械学習システムの異なる段階で発生するこの敵対現象を探求するために、いくつかのパラダイムが最近開発された。
既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-19T02:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。