Fugu-MT 論文翻訳(概要): Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection

論文の概要: Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection

arxiv url: http://arxiv.org/abs/2408.10417v1
Date: Mon, 19 Aug 2024 21:09:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 17:43:23.879781
Title: Development of an AI Anti-Bullying System Using Large Language Model Key Topic Detection
Title（参考訳）: 大規模言語モデルキートピック検出を用いたAIアンチブリッシングシステムの開発
Authors: Matthew Tassava, Cameron Kolodjski, Jordan Milbrath, Adorah Bishop, Nathan Flanders, Robbie Fetsch, Danielle Hanson, Jeremy Straub,
Abstract要約: このシステムは、ソーシャルメディアやその他のメカニズムを介して、協調的ないじめ攻撃を特定するように設計されている。大規模言語モデル(LLM)は、いじめ攻撃の強化されたシステムベースのネットワークモデルを構築するために使用される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents and evaluates work on the development of an artificial intelligence (AI) anti-bullying system. The system is designed to identify coordinated bullying attacks via social media and other mechanisms, characterize them and propose remediation and response activities to them. In particular, a large language model (LLM) is used to populate an enhanced expert system-based network model of a bullying attack. This facilitates analysis and remediation activity - such as generating report messages to social media companies - determination. The system is described and the efficacy of the LLM for populating the model is analyzed herein.
Abstract（参考訳）: 本稿では,人工知能(AI)アンチバブルシステムの開発について,その成果と評価を行う。このシステムは、ソーシャルメディアやその他のメカニズムを介して協調的いじめ攻撃を識別し、それらを特徴付け、修復および対応活動を提案するように設計されている。特に、大規模言語モデル(LLM)は、いじめ攻撃のエキスパートシステムベースのネットワークモデルを構築するために使用される。これにより、ソーシャルメディア企業への報告メッセージの生成など、分析と修復活動の促進が図られる。本システムについて述べるとともに,本モデルに対するLCMの有効性について述べる。

関連論文リスト

Towards a Playground to Democratize Experimentation and Benchmarking of AI Agents for Network Troubleshooting [48.131257144711576]
ネットワークトラブルシューティングにおけるAIエージェントの適用に焦点を当てる。標準化され、再現可能で、オープンなベンチマークプラットフォームの必要性について詳しく説明します。
論文参考訳（メタデータ） (2025-07-01T08:46:37Z)
A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文参考訳（メタデータ） (2025-06-26T22:02:01Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文参考訳（メタデータ） (2025-03-27T12:50:17Z)
Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文参考訳（メタデータ） (2025-02-02T05:14:22Z)
Exploring Answer Set Programming for Provenance Graph-Based Cyber Threat Detection: A Novel Approach [4.302577059401172]
プロヴァンスグラフは、サイバーセキュリティにおけるシステムレベルのアクティビティを表現するのに有用なツールである。本稿では, ASP を用いてプロファイランスグラフをモデル化・解析する手法を提案する。
論文参考訳（メタデータ） (2025-01-24T14:57:27Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [97.82118821263825]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
LLM Honeypot: Leveraging Large Language Models as Advanced Interactive Honeypot Systems [0.0]
ハニーポット(Honeypot)は、攻撃者を誘惑し、相互作用させるように設計されたデコイシステムである。我々は,大規模言語モデルを用いて,現実的でインタラクティブなハニーポットシステムを構築するための新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-09-12T17:33:06Z)
DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文参考訳（メタデータ） (2024-03-01T05:28:06Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
L-AutoDA: Leveraging Large Language Models for Automated Decision-based Adversarial Attacks [16.457528502745415]
L-AutoDAは、Large Language Models (LLM) の生成能力を活用して、敵攻撃の設計を自動化する新しいアプローチである。 L-AutoDAは、進化的なフレームワークでLLMと反復的に対話することにより、人間の努力を伴わずに、競合する攻撃アルゴリズムを効率的に設計する。 CIFAR-10データセットに対するL-AutoDAの有効性を実証し、成功率と計算効率の両面でベースライン法よりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2024-01-27T07:57:20Z)
Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale [45.64096601242646]
テキスト・ツー・イメージモデルにおけるステレオタイプ検出に適した新しいエージェントアーキテクチャを提案する。複数のオープンテキストデータセットに基づいたステレオタイプ関連ベンチマークを構築した。これらのモデルは、個人的特性に関する特定のプロンプトに関して、深刻なステレオタイプを示すことが多い。
論文参考訳（メタデータ） (2023-10-18T08:16:29Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。 TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文参考訳（メタデータ） (2023-05-29T19:59:40Z)
Using Language Models to Detect Alarming Student Responses [0.0]
本稿は、人工知能を用いて警告する学生の反応を識別するシステムへの進歩について詳述する。本システムは,学生の反応が自分に対する脅威であることを示すかどうかを評価するために,評価プラットフォームに組み込まれている。
論文参考訳（メタデータ） (2023-05-12T18:07:00Z)
Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective [69.25513235556635]
敵対的機械学習(英: Adversarial Machine Learning、AML)は、機械学習の逆行現象を研究する。機械学習システムの異なる段階で発生するこの敵対現象を探求するために、いくつかのパラダイムが最近開発された。既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。
論文参考訳（メタデータ） (2023-02-19T02:12:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。