論文の概要: Demo: ViolentUTF as An Accessible Platform for Generative AI Red Teaming
- arxiv url: http://arxiv.org/abs/2504.10603v1
- Date: Mon, 14 Apr 2025 18:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:05:25.496835
- Title: Demo: ViolentUTF as An Accessible Platform for Generative AI Red Teaming
- Title(参考訳): デモ: ViolentUTFはAI生成のレッドチームのためのアクセシブルプラットフォーム
- Authors: Tam n. Nguyen,
- Abstract要約: ViolentUTFは、技術分野の専門家や学生を技術分野の専門家と一緒に支援することを目的としている。
ViolentUTFは、米国政府の大部門でLLMベースのフラッグシップ製品の評価に使用されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid integration of Generative AI (GenAI) into various applications necessitates robust risk management strategies which includes Red Teaming (RT) - an evaluation method for simulating adversarial attacks. Unfortunately, RT for GenAI is often hindered by technical complexity, lack of user-friendly interfaces, and inadequate reporting features. This paper introduces Violent UTF - an accessible, modular, and scalable platform for GenAI red teaming. Through intuitive interfaces (Web GUI, CLI, API, MCP) powered by LLMs and for LLMs, Violent UTF aims to empower non-technical domain experts and students alongside technical experts, facilitate comprehensive security evaluation by unifying capabilities from RT frameworks like Microsoft PyRIT, Nvidia Garak and its own specialized evaluators. ViolentUTF is being used for evaluating the robustness of a flagship LLM-based product in a large US Government department. It also demonstrates effectiveness in evaluating LLMs' cross-domain reasoning capability between cybersecurity and behavioral psychology.
- Abstract(参考訳): さまざまなアプリケーションへのジェネレーティブAI(GenAI)の迅速な統合は、敵攻撃をシミュレートする評価方法であるRed Teaming(RT)を含む堅牢なリスク管理戦略を必要とする。
残念なことに、GenAIのRTは、技術的な複雑さ、ユーザフレンドリなインターフェースの欠如、レポート機能が不十分であることが多い。
本稿では,GenAI Red Teamingのための,アクセシブルでモジュール化されたスケーラブルなプラットフォームであるViolent UTFを紹介する。
直感的なインターフェース(Web GUI, CLI, API, MCP)を LLM と LLM で実現することで、Violent UTF は技術分野の専門家や学生を技術専門家と一緒に支援し、Microsoft PyRIT や Nvidia Garak などの RT フレームワークからの機能を統合することで、包括的なセキュリティ評価を促進することを目的としている。
ViolentUTFは、米国政府の大規模な部門において、LLMベースのフラッグシップ製品の堅牢性を評価するために使用されている。
また、LLMのサイバーセキュリティと行動心理学のクロスドメイン推論能力を評価する効果も示している。
関連論文リスト
- Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI [52.138044013005]
生成AI、特に大規模言語モデル(LLM)は、製品アプリケーションにますます統合される。
新たな攻撃面と脆弱性が出現し、自然言語やマルチモーダルシステムにおける敵の脅威に焦点を当てる。
レッドチーム(英語版)はこれらのシステムの弱点を積極的に識別する上で重要となり、ブルーチーム(英語版)はそのような敵の攻撃から保護する。
この研究は、生成AIシステムの保護のための学術的な洞察と実践的なセキュリティ対策のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-09-23T10:18:10Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Automated Progressive Red Teaming [38.723546092060666]
手動のレッドチーム化は時間がかかり、コストがかかり、スケーラビリティが欠如しています。
我々は,効果的に学習可能なフレームワークとして,APRT(Automated Progressive Red Teaming)を提案する。
APRTは3つのコアモジュールを活用している: 多様な初期攻撃サンプルを生成するインテンション拡張LDM、敵のプロンプトを製作するインテンションハイディングLDM、そして、迅速な多様性と非効率なサンプルのフィルタリングを管理するEvil Makerである。
論文 参考訳(メタデータ) (2024-07-04T12:14:27Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。