論文の概要: AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models
- arxiv url: http://arxiv.org/abs/2506.14682v1
- Date: Tue, 17 Jun 2025 16:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.568053
- Title: AIRTBench: Measuring Autonomous AI Red Teaming Capabilities in Language Models
- Title(参考訳): AIRTBench: 言語モデルにおける自律的なAIレッドチーム機能の測定
- Authors: Ads Dawson, Rob Mulla, Nick Landers, Shane Caldwell,
- Abstract要約: AIRTBenchは、AI/MLのセキュリティ脆弱性を自律的に発見し、悪用する言語モデルの能力を評価するための、AIレッドチームベンチマークである。
このベンチマークは、Dreadnodeプラットフォーム上のCrucibleチャレンジ環境から70の現実的なブラックボックスキャプチャー・ザ・フラッグ(CTF)チャレンジで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce AIRTBench, an AI red teaming benchmark for evaluating language models' ability to autonomously discover and exploit Artificial Intelligence and Machine Learning (AI/ML) security vulnerabilities. The benchmark consists of 70 realistic black-box capture-the-flag (CTF) challenges from the Crucible challenge environment on the Dreadnode platform, requiring models to write python code to interact with and compromise AI systems. Claude-3.7-Sonnet emerged as the clear leader, solving 43 challenges (61% of the total suite, 46.9% overall success rate), with Gemini-2.5-Pro following at 39 challenges (56%, 34.3% overall), GPT-4.5-Preview at 34 challenges (49%, 36.9% overall), and DeepSeek R1 at 29 challenges (41%, 26.9% overall). Our evaluations show frontier models excel at prompt injection attacks (averaging 49% success rates) but struggle with system exploitation and model inversion challenges (below 26%, even for the best performers). Frontier models are far outpacing open-source alternatives, with the best truly open-source model (Llama-4-17B) solving 7 challenges (10%, 1.0% overall), though demonstrating specialized capabilities on certain hard challenges. Compared to human security researchers, large language models (LLMs) solve challenges with remarkable efficiency completing in minutes what typically takes humans hours or days-with efficiency advantages of over 5,000x on hard challenges. Our contribution fills a critical gap in the evaluation landscape, providing the first comprehensive benchmark specifically designed to measure and track progress in autonomous AI red teaming capabilities.
- Abstract(参考訳): AIRTBenchは、AI/ML(Artificial Intelligence and Machine Learning)の脆弱性を自律的に発見し、活用する言語モデルの能力を評価するための、AIレッドチームベンチマークである。
このベンチマークは、Dreadnodeプラットフォーム上のCrucibleチャレンジ環境からの70の現実的なブラックボックスキャプチャーザフラッグ(CTF)チャレンジで構成されており、AIシステムと対話し、妥協するためのピソンコードを書く必要がある。
Claude-3.7-Sonnetは43の課題(全体の61%、全体の成功率46.9%)を解決し、ジェミニ2.5-Proは39の課題(全体の56%、34.3%)、GPT-4.5-Previewは34の課題(全体の49%、36.9%)、DeepSeek R1は29の課題(全体の41%、26.9%)を解決した。
評価の結果,プロンプトインジェクション攻撃(49%の成功率)ではフロンティアモデルが優れているが,システムエクスプロイトやモデルインバージョン問題(ベストパフォーマーでも26%以下)に苦慮していることがわかった。
最強のオープンソースモデル(Llama-4-17B)は7つの課題(全体の10%、1.0%)を解決しているが、特定の困難に対して特別な能力を示す。
人間のセキュリティ研究者と比較すると、大きな言語モデル(LLM)は、難しい課題に対して5000倍以上の効率上の利点を伴って、人間の時間や数日に要する、驚くほどの効率を数分で達成する課題を解決している。
当社のコントリビューションは、評価環境における重要なギャップを埋め、自律的なAIレッドチームにおける進捗を計測し追跡する目的で設計された、初めての包括的なベンチマークを提供します。
関連論文リスト
- The Automation Advantage in AI Red Teaming [0.0]
本稿では,Crucibleのデータに基づいて,Large Language Model (LLM)の脆弱性を分析する。
その結果,自動化技術は5.2%のユーザしか採用していないにも関わらず,手技よりもはるかに優れていたことが判明した。
論文 参考訳(メタデータ) (2025-04-28T14:48:00Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z) - SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-14T15:23:39Z) - ABAW : Facial Expression Recognition in the wild [3.823356975862006]
我々は,完全教師付き,半教師付き,雑音付きラベルアプローチなどの複数のアプローチを用いて,表現分類の問題に対処してきた。
ノイズ認識モデルによるアプローチは,ベースラインモデルよりも10.46%向上した。
論文 参考訳(メタデータ) (2023-03-17T06:01:04Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。