Fugu-MT 論文翻訳(概要): The Automation Advantage in AI Red Teaming

論文の概要: The Automation Advantage in AI Red Teaming

arxiv url: http://arxiv.org/abs/2504.19855v2
Date: Tue, 29 Apr 2025 02:52:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.480494
Title: The Automation Advantage in AI Red Teaming
Title（参考訳）: AI Red Teamingにおける自動化のアドバンテージ
Authors: Rob Mulla, Ads Dawson, Vincent Abruzzon, Brian Greunke, Nick Landers, Brad Palm, Will Pearce,
Abstract要約: 本稿では,Crucibleのデータに基づいて,Large Language Model (LLM)の脆弱性を分析する。その結果,自動化技術は5.2%のユーザしか採用していないにも関わらず,手技よりもはるかに優れていたことが判明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper analyzes Large Language Model (LLM) security vulnerabilities based on data from Crucible, encompassing 214,271 attack attempts by 1,674 users across 30 LLM challenges. Our findings reveal automated approaches significantly outperform manual techniques (69.5% vs 47.6% success rate), despite only 5.2% of users employing automation. We demonstrate that automated approaches excel in systematic exploration and pattern matching challenges, while manual approaches retain speed advantages in certain creative reasoning scenarios, often solving problems 5x faster when successful. Challenge categories requiring systematic exploration are most effectively targeted through automation, while intuitive challenges sometimes favor manual techniques for time-to-solve metrics. These results illuminate how algorithmic testing is transforming AI red-teaming practices, with implications for both offensive security research and defensive measures. Our analysis suggests optimal security testing combines human creativity for strategy development with programmatic execution for thorough exploration.
Abstract（参考訳）: 本稿は,Crucibleのデータに基づくLarge Language Model (LLM) の脆弱性を解析し,30のLLM課題にわたる1,674人のユーザによる214,271件の攻撃の試みを包含する。その結果、自動化手法が手技(69.5%、成功率47.6%)を大幅に上回っていることが明らかとなった。自動的なアプローチは、体系的な探索とパターンマッチングの課題に優れており、手動のアプローチは、特定の創造的推論シナリオにおいて速度上の優位性を維持し、多くの場合、成功時には問題を5倍早く解決する。体系的な探索を必要とする課題カテゴリは、自動化によって最も効果的にターゲットされる一方で、直感的な課題は、時に時間から解決までのメトリクスに対して手動のテクニックを好む。これらの結果は、アルゴリズムによるテストがAIのレッドチーム化の実践をいかに変えているかを示し、攻撃的なセキュリティ研究と防御対策の両方に影響を及ぼす。我々の分析は、戦略開発のための人間の創造性と徹底的な探索のためのプログラム実行を組み合わせた最適なセキュリティテストを提案する。

関連論文リスト

Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文参考訳（メタデータ） (2025-10-24T23:53:16Z)
Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-10-07T17:49:24Z)
LLM Robustness Leaderboard v1 --Technical report [0.0]
このレポートは、PRISM Eval氏がParis AI Action Summitで発表した、堅牢性 LLM リーダボードを伴っている。 PRISM Eval Behavior Elicitation Tool (BET)を導入する。有害な行動を誘発するために必要な平均試行回数を推定し,攻撃困難度が普遍的脆弱性にもかかわらず,300倍以上に変化することを示す。
論文参考訳（メタデータ） (2025-08-08T13:15:40Z)
AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench [65.21702462691933]
我々は、AI研究エージェントを候補ソリューションの空間をナビゲートする検索ポリシーとして形式化し、演算子を使ってそれらを反復的に修正する。我々の最良の探索戦略と演算子の組み合わせは、MLEベンチライトの最先端の成果を達成し、カグルメダルを39.6%から47.7%に引き上げることに成功した。
論文参考訳（メタデータ） (2025-07-03T11:59:15Z)
Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文参考訳（メタデータ） (2025-06-11T18:43:51Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models [62.12822290276912]
Auto-RTは、複雑な攻撃戦略を探索し最適化する強化学習フレームワークである。探索効率を大幅に改善し、攻撃戦略を自動的に最適化することにより、Auto-RTはボーダの脆弱性範囲を検出し、検出速度が速く、既存の方法と比較して16.63%高い成功率を達成する。
論文参考訳（メタデータ） (2025-01-03T14:30:14Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文参考訳（メタデータ） (2024-10-02T14:47:05Z)
Holistic Automated Red Teaming for Large Language Models through Top-Down Test Case Generation and Multi-turn Interaction [24.499874512829198]
本研究では, 対角的, きめ細かなリスク分類に基づいて, テストケースの多様性を拡大する自動紅茶造法を提案する。提案手法は,新しい微調整戦略と強化学習技術を活用し,人的手法で多ターン探索を容易にする。
論文参考訳（メタデータ） (2024-09-25T09:44:48Z)
AutoSurvey: Large Language Models Can Automatically Write Surveys [77.0458309675818]
本稿では,総合的な文献調査を自動作成する手法であるAutoSurveyを紹介する。従来の調査論文は、膨大な量の情報と複雑さのために、課題に直面している。我々の貢献には、調査問題に対する総合的な解決策、信頼性評価方法、AutoSurveyの有効性を実証する実験的な検証が含まれる。
論文参考訳（メタデータ） (2024-06-10T12:56:06Z)
Automatic Engineering of Long Prompts [79.66066613717703]
大規模言語モデル(LLM)は、複雑なオープンドメインタスクを解く際、顕著な能力を示した。本稿では,自動ロングプロンプトエンジニアリングのためのグリージーアルゴリズムと遺伝的アルゴリズムの性能について検討する。提案アルゴリズムは,Big Bench Hardの8つのタスクにおいて,平均9.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-11-16T07:42:46Z)
Raij\=u: Reinforcement Learning-Guided Post-Exploitation for Automating Security Assessment of Network Systems [0.0]
Raij=uフレームワークは強化学習駆動の自動化アプローチである。我々は2つのRLアルゴリズムを実装し、知的行動を行うことのできる特殊エージェントを訓練する。エージェントは55段階未満の攻撃で84%以上の攻撃を成功させる。
論文参考訳（メタデータ） (2023-09-27T09:36:22Z)
Towards Automated Classification of Attackers' TTPs by combining NLP with ML Techniques [77.34726150561087]
我々は,NLP(Natural Language Processing)と,研究におけるセキュリティ情報抽出に使用される機械学習技術の評価と比較を行った。本研究では,攻撃者の戦術や手法に従って非構造化テキストを自動的に分類するデータ処理パイプラインを提案する。
論文参考訳（メタデータ） (2022-07-18T09:59:21Z)
Enhanced Adversarial Strategically-Timed Attacks against Deep Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2020-02-20T21:39:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。