論文の概要: Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection
- arxiv url: http://arxiv.org/abs/2408.10417v1
- Date: Mon, 19 Aug 2024 21:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:43:23.879781
- Title: Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection
- Title(参考訳): 大規模言語モデルキートピック検出を用いたAIアンチブリッシングシステムの開発
- Authors: Matthew Tassava, Cameron Kolodjski, Jordan Milbrath, Adorah Bishop, Nathan Flanders, Robbie Fetsch, Danielle Hanson, Jeremy Straub,
- Abstract要約: このシステムは、ソーシャルメディアやその他のメカニズムを介して、協調的ないじめ攻撃を特定するように設計されている。
大規模言語モデル(LLM)は、いじめ攻撃の強化されたシステムベースのネットワークモデルを構築するために使用される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents and evaluates work on the development of an artificial intelligence (AI) anti-bullying system. The system is designed to identify coordinated bullying attacks via social media and other mechanisms, characterize them and propose remediation and response activities to them. In particular, a large language model (LLM) is used to populate an enhanced expert system-based network model of a bullying attack. This facilitates analysis and remediation activity - such as generating report messages to social media companies - determination. The system is described and the efficacy of the LLM for populating the model is analyzed herein.
- Abstract(参考訳): 本稿では,人工知能(AI)アンチバブルシステムの開発について,その成果と評価を行う。
このシステムは、ソーシャルメディアやその他のメカニズムを介して協調的いじめ攻撃を識別し、それらを特徴付け、修復および対応活動を提案するように設計されている。
特に、大規模言語モデル(LLM)は、いじめ攻撃のエキスパートシステムベースのネットワークモデルを構築するために使用される。
これにより、ソーシャルメディア企業への報告メッセージの生成など、分析と修復活動の促進が図られる。
本システムについて述べるとともに,本モデルに対するLCMの有効性について述べる。
関連論文リスト
- In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。
また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems [0.0]
ハニーポット(Honeypot)は、攻撃者を誘惑し、相互作用させるように設計されたデコイシステムである。
我々は,大規模言語モデルを用いて,現実的でインタラクティブなハニーポットシステムを構築するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-12T17:33:06Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks [16.457528502745415]
L-AutoDAは、Large Language Models (LLM) の生成能力を活用して、敵攻撃の設計を自動化する新しいアプローチである。
L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。
CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2024-01-27T07:57:20Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Exploiting Explainability to Design Adversarial Attacks and Evaluate
Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。
TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。
この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2023-05-29T19:59:40Z) - Using Language Models to Detect Alarming Student Responses [0.0]
本稿は、人工知能を用いて警告する学生の反応を識別するシステムへの進歩について詳述する。
本システムは,学生の反応が自分に対する脅威であることを示すかどうかを評価するために,評価プラットフォームに組み込まれている。
論文 参考訳(メタデータ) (2023-05-12T18:07:00Z) - Attacks in Adversarial Machine Learning: A Systematic Survey from the
Life-cycle Perspective [69.25513235556635]
敵対的機械学習(英: Adversarial Machine Learning、AML)は、機械学習の逆行現象を研究する。
機械学習システムの異なる段階で発生するこの敵対現象を探求するために、いくつかのパラダイムが最近開発された。
既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-19T02:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。