論文の概要: LLM Robustness Leaderboard v1 --Technical report
- arxiv url: http://arxiv.org/abs/2508.06296v2
- Date: Wed, 13 Aug 2025 08:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 11:55:47.612203
- Title: LLM Robustness Leaderboard v1 --Technical report
- Title(参考訳): LLMロバストネスリーダーボード v1 -- 技術報告
- Authors: Pierre Peigné - Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe,
- Abstract要約: このレポートは、PRISM Eval氏がParis AI Action Summitで発表した、堅牢性 LLM リーダボードを伴っている。
PRISM Eval Behavior Elicitation Tool (BET)を導入する。
有害な行動を誘発するために必要な平均試行回数を推定し,攻撃困難度が普遍的脆弱性にもかかわらず,300倍以上に変化することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This technical report accompanies the LLM robustness leaderboard published by PRISM Eval for the Paris AI Action Summit. We introduce PRISM Eval Behavior Elicitation Tool (BET), an AI system performing automated red-teaming through Dynamic Adversarial Optimization that achieves 100% Attack Success Rate (ASR) against 37 of 41 state-of-the-art LLMs. Beyond binary success metrics, we propose a fine-grained robustness metric estimating the average number of attempts required to elicit harmful behaviors, revealing that attack difficulty varies by over 300-fold across models despite universal vulnerability. We introduce primitive-level vulnerability analysis to identify which jailbreaking techniques are most effective for specific hazard categories. Our collaborative evaluation with trusted third parties from the AI Safety Network demonstrates practical pathways for distributed robustness assessment across the community.
- Abstract(参考訳): このテクニカルレポートは、パリAIアクションサミットのためにPRISM Evalが発行したLDMロバストネスリーダーボードに付随する。
PRISM Eval Behavior Elicitation Tool (BET) を導入し、41のLLMのうち37に対して100%の攻撃成功率(ASR)を達成するダイナミック・アドバイサリアル・オプティマイズ(Dynamic Adversarial Optimization)による自動リピートを行うAIシステムについて紹介する。
2値の成功指標の他に、有害な行動を誘発するために必要な平均的な試行数を推定したきめ細かな頑健度尺度を提案し、普遍的な脆弱性にもかかわらず、攻撃の難しさはモデル全体で300倍以上に変化することを示した。
本稿では,特定の危険カテゴリに対して最も有効なジェイルブレイク技術を特定するために,プリミティブレベルの脆弱性分析を導入する。
AI Safety Networkの信頼できるサードパーティとの共同評価では、コミュニティ全体での分散ロバストネス評価の実践的な経路が示されています。
関連論文リスト
- Preventing Adversarial AI Attacks Against Autonomous Situational Awareness: A Maritime Case Study [0.0]
アドリラル人工知能(AI)による攻撃は、自律走行に重大な脅威をもたらす。
本稿では、敵対的AIに関連する3つの重要な研究課題に対処する。
本稿では,複数入力とデータ融合を利用して防御部品を構築できるビルディングディフェンスを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:59:05Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。