論文の概要: CyBiasBench: Benchmarking Bias in LLM Agents for Cyber-Attack Scenarios
- arxiv url: http://arxiv.org/abs/2605.07830v1
- Date: Fri, 08 May 2026 14:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.137309
- Title: CyBiasBench: Benchmarking Bias in LLM Agents for Cyber-Attack Scenarios
- Title(参考訳): CyBiasBench: サイバーアタックシナリオのためのLLMエージェントのベンチマークバイアス
- Authors: Taein Lim, Seongyong Ju, Munhyeok Kim, Hyunjun Kim, Hoki Kim,
- Abstract要約: 大規模言語モデル(LLM)は、攻撃的なサイバーセキュリティにおいて、自律的なエージェントとしてますます多くデプロイされている。
本稿では,異なるエージェントが異なる攻撃パターンを示すという興味深い現象を明らかにする。
我々はCyBiasBenchを紹介した。CyBiasBenchは総合的な630セッションのベンチマークで、3つのターゲット上の5つのエージェントと10の攻撃ファミリーを持つ4つのプロンプト条件を評価する。
- 参考スコア(独自算出の注目度): 13.03027919412076
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents in offensive cybersecurity. In this paper, we reveal an interesting phenomenon: different agents exhibit distinct attack patterns. Specifically, each agent exhibits an attack-selection bias, disproportionately concentrating its efforts on a narrow subset of attack families regardless of prompt variations. To systematically quantify this behavior, we introduce CyBiasBench, a comprehensive 630-session benchmark that evaluates five agents on three targets and four prompt conditions with ten attack families. We identify explicit bias across agents, with different dominant attack families and varying entropy levels in their attack-family allocation distributions. Such bias is better characterized as a trait of the agents, rather than a factor associated with the attack success rate. Furthermore, our experiments reveal a bias momentum effect, where agents resist explicit steering toward attack families that conflict with their bias. This forced distribution shift does not yield measurable improvements in attack performance. To ensure reproducibility and facilitate future research, we release an interactive result dashboard at https://trustworthyai.co.kr/CyBiasBench/ and a reproducibility artifact with aggregated session-level statistics and full evaluation scripts at https://github.com/Harry24k/CyBiasBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、攻撃的なサイバーセキュリティにおいて、自律的なエージェントとしてますます多くデプロイされている。
本稿では,異なるエージェントが異なる攻撃パターンを示すという興味深い現象を明らかにする。
具体的には、各エージェントは攻撃選択バイアスを示し、急激な変動に関わらず、攻撃ファミリーの狭いサブセットに集中している。
この動作を体系的に定量化するために,3つのターゲット上の5つのエージェントと10個の攻撃ファミリーを持つ4つのプロンプト条件を総合的に評価する630セッションベンチマークであるCyBiasBenchを導入する。
エージェント間の明らかな偏りを識別し、攻撃ファミリーの異なる攻撃ファミリーと、攻撃領域の割り当て分布におけるエントロピーレベルを変化させる。
このようなバイアスは、攻撃の成功率に関連する要因ではなく、エージェントの特性として特徴づけられる。
さらに、我々の実験ではバイアス運動量の影響が示され、エージェントはバイアスと矛盾する攻撃家族に対する明示的な操舵に抵抗する。
この強制的な分散シフトは、攻撃性能の計測可能な改善をもたらすことはない。
再現性を確保し、将来の研究を容易にするため、https://trustworthyai.co.kr/CyBiasBench/でインタラクティブな結果ダッシュボード、セッションレベルの統計を集約した再現性アーティファクト、https://github.com/Harry24k/CyBiasBenchで完全な評価スクリプトをリリースする。
関連論文リスト
- Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - How Worst-Case Are Adversarial Attacks? Linking Adversarial and Perturbation Robustness [4.60092781176058]
アドリア攻撃はモデル脆弱性の特定に広く用いられているが、ランダムな摂動に対する堅牢性のためのプロキシとしての有効性については議論が続いている。
逆の例が、同じ大きさの摂動下での誤予測リスクを代表的に見積もっているかどうかを問う。
本研究では, 統計的に均一な雑音に近づいた体制において, 脆弱性を調査するための攻撃戦略を提案することにより, この接続の限界について検討する。
論文 参考訳(メタデータ) (2026-01-20T22:24:47Z) - When Agents See Humans as the Outgroup: Belief-Dependent Bias in LLM-Powered Agents [30.859825973762018]
本稿は、LSMによるエージェントは、人口統計バイアス(例えば、性別、宗教)だけでなく、グループ間バイアスも最小限の「us」と「them」の手がかりで示していることを示している。
エージェントは他のAIエージェントを内集団として扱うことができ、人間を外集団として扱うことができる。
論文 参考訳(メタデータ) (2026-01-01T07:18:36Z) - Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments [4.547649832854566]
大規模言語モデル(LLM)は、マルチエージェントと安全クリティカルな設定でますます運用され、モデルが逆向きに相互作用する際の脆弱性のスケールに関するオープンな疑問が提起される。
本研究は,アライメント保護にもかかわらず有害な拘束行動を引き起こす,より大規模なモデルで,より小さなモデルを体系的に緩和できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-16T15:16:33Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z) - Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Adversarial Fooling Beyond "Flipping the Label" [54.23547006072598]
CNNは、多くの重要なタスクにおいて、人間に近いか、人間のパフォーマンスよりも優れていることを示す。
これらの攻撃は、実際の展開において潜在的に危険である。
異なるCNNアーキテクチャの集合に対するいくつかの重要な敵攻撃を包括的に分析する。
論文 参考訳(メタデータ) (2020-04-27T13:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。