論文の概要: Comparison requires valid measurement: Rethinking attack success rate comparisons in AI red teaming
- arxiv url: http://arxiv.org/abs/2601.18076v1
- Date: Mon, 26 Jan 2026 02:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.618299
- Title: Comparison requires valid measurement: Rethinking attack success rate comparisons in AI red teaming
- Title(参考訳): 比較は有効な測定を必要とする:AIレッドチームにおける攻撃成功率の比較を再考する
- Authors: Alexandra Chouldechova, A. Feder Cooper, Solon Barocas, Abhinav Palia, Dan Vann, Hanna Wallach,
- Abstract要約: リンゴとオレンジの比較や低粘度測定で多くの結論が得られた。
私たちの議論は、単純な質問に基礎を置いている。 成功率に対する攻撃は、いつ、有意義に比較できるのか?
- 参考スコア(独自算出の注目度): 45.214664245132916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We argue that conclusions drawn about relative system safety or attack method efficacy via AI red teaming are often not supported by evidence provided by attack success rate (ASR) comparisons. We show, through conceptual, theoretical, and empirical contributions, that many conclusions are founded on apples-to-oranges comparisons or low-validity measurements. Our arguments are grounded in asking a simple question: When can attack success rates be meaningfully compared? To answer this question, we draw on ideas from social science measurement theory and inferential statistics, which, taken together, provide a conceptual grounding for understanding when numerical values obtained through the quantification of system attributes can be meaningfully compared. Through this lens, we articulate conditions under which ASRs can and cannot be meaningfully compared. Using jailbreaking as a running example, we provide examples and extensive discussion of apples-to-oranges ASR comparisons and measurement validity challenges.
- Abstract(参考訳): 我々は,アタック成功率(ASR)の比較によって得られた証拠によって,AIレッドチームによる相対システムの安全性や攻撃方法の有効性に関する結論が支持されないことが多いことを論じる。
我々は、概念的、理論的、実証的な貢献を通じて、多くの結論がリンゴとオレンジの比較や低原子価の測定に基づいていることを示す。
私たちの議論は、単純な質問に基礎を置いている。 成功率に対する攻撃は、いつ、有意義に比較できるのか?
この疑問に答えるために、社会科学計測理論と推論統計学のアイデアを考察し、システム属性の定量化によって得られた数値が有意に比較できる場合の理解のための概念的根拠を提供する。
このレンズを通して、ASRが有意に比較できない条件を明瞭に表現する。
ジェイルブレーキングを実例として、リンゴとオレンジのASR比較と測定の有効性の課題について、広範囲にわたる議論と例を挙げる。
関連論文リスト
- Sequential Manipulation Against Rank Aggregation: Theory and Algorithm [119.57122943187086]
脆弱なデータ収集プロセスに対するオンライン攻撃を活用します。
ゲーム理論の観点からは、対決シナリオは分布的に堅牢なゲームとして定式化される。
提案手法は,ランクアグリゲーション手法の結果を逐次的に操作する。
論文 参考訳(メタデータ) (2024-07-02T03:31:21Z) - A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - Explaining Arguments' Strength: Unveiling the Role of Attacks and Supports (Technical Report) [13.644164255651472]
関係属性説明(RAE)の新理論を提案する。
RAEは、攻撃の役割に関するきめ細かい洞察を提供し、議論の強さを得るための定量的双極性議論を支援する。
不正検出および大規模言語モデルケーススタディにおけるRAEの応用価値を示す。
論文 参考訳(メタデータ) (2024-04-22T16:02:48Z) - DALA: A Distribution-Aware LoRA-Based Adversarial Attack against
Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。
最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。
そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T23:43:47Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。