論文の概要: Understanding Human-AI Collaboration in Cybersecurity Competitions
- arxiv url: http://arxiv.org/abs/2602.20446v1
- Date: Tue, 24 Feb 2026 01:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.564352
- Title: Understanding Human-AI Collaboration in Cybersecurity Competitions
- Title(参考訳): サイバーセキュリティコンペティションにおけるヒューマンAIコラボレーションの理解
- Authors: Tingxuan Tang, Nicolas Janis, Kalyn Asher Montague, Kevin Eykholt, Dhilung Kirat, Youngja Park, Jiyong Jang, Adwait Nadkarni, Yue Xiao,
- Abstract要約: 参加者の認識、信頼、期待が、AI使用の前後でどのように変化するかを研究する。
競争が進むにつれて、チームはAIにより大きなサブタスクを委譲するようになる。
注目すべきは、プロンプトとツールの使用を自己指揮する自律エージェントが、このボトルネックを回避し、ほとんどの人間チームを上回っていることだ。
- 参考スコア(独自算出の注目度): 12.034897605949858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capture-the-Flag (CTF) competitions are increasingly becoming a testbed for evaluating AI capabilities at solving security tasks, due to the controlled environments and objective success criteria. Existing evaluations have focused on how successful AI is at solving CTF challenges in isolation from human CTF players. As AI usage increases in both academic and industrial settings, it is equally likely that human players may collaborate with AI agents to solve challenges. This possibility exposes a key knowledge gap: how do humans perceive AI CTF assistance; when assistance is provided, how do they collaborate and is it effective with respect to human performance; how do humans assisted by AI compare to the performance of fully autonomous AI agents on the same challenges. We address this gap with the first empirical study of AI assistance in a live, onsite CTF. In a study with 41 participants, we qualitatively study (i) how participants' perception, trust, and expectations shift before versus after hands-on AI use, and (ii) how participants collaborate with an instrumented AI agent. Moreover, we also (iii) benchmark four autonomous AI agents on the same fresh challenge set to compare outcomes with human teams and analyze agent trajectories. We find that, as the competition progresses, teams increasingly delegate larger subtasks to the AI, giving it more agency. Interestingly, CTF challenges solving rates are often constrained not by model's reasoning capabilities, but rather by the human players: ineffective prompting and poor context specification become the primary bottleneck. Remarkably, autonomous agents that self-direct their prompting and tool use bypass this bottleneck and outperform most human teams, coming in second overall in the competition. We conclude with implications for the future design of CTF challenges and for building effective human-in-the-loop AI systems for security.
- Abstract(参考訳): CTF(Capture-the-Flag)コンペティションは、制御された環境と客観的な成功基準のために、セキュリティタスクの解決におけるAI能力を評価するためのテストベッドになりつつある。
既存の評価では、人間のCTFプレーヤーから切り離されたCTFの課題を解決する上で、AIがいかに成功しているかに焦点が当てられている。
学術的にも産業的にもAIの利用が増加するにつれて、人間のプレイヤーがAIエージェントと協力して課題を解決する可能性は十分にある。
この可能性は、人間がAI CTFアシストをどう知覚するか、アシストが提供されるとき、どのように協力し、人間のパフォーマンスに関して効果的か、AIによって支援される人は、同じ課題において完全に自律的なAIエージェントのパフォーマンスと比較するか、といった重要な知識ギャップを露呈する。
我々はこのギャップを、ライブの現場CTFにおけるAI支援に関する最初の実証的研究で解決する。
41名の被験者を対象にした質的研究
一 参加者の認識、信頼、期待がAI使用の前後でどのように変化するか、
(ii)参加者がAIエージェントとどのように協力するか。
また、私たちも
第三に、人間チームとの結果を比較し、エージェントの軌跡を分析するために、4つの自律AIエージェントを同じ新しい課題セットでベンチマークする。
競争が進むにつれて、チームはAIにより大きなサブタスクを委譲し、より多くのエージェンシーを与えるようになる。
興味深いことに、CTFの課題は、しばしばモデルの推論能力ではなく、人間のプレイヤーによって制約される。
注目すべきは、プロンプトとツールの使用を自己指揮する自律エージェントが、このボトルネックを回避し、ほとんどの人間チームのパフォーマンスを上回り、競争で総合的に2位になることだ。
我々は、CTF課題の今後の設計と、セキュリティのための効果的なヒューマン・イン・ザ・ループAIシステムの構築について結論付けている。
関連論文リスト
- Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration [13.041288521972563]
人間とAIの意思決定において、人間の専門知識を補完するAIを設計することは、人間とAIのコラボレーションを強化する自然な戦略である。
一致したAIは、信頼を育みながら、最適な人間の行動を補強し、人間とAIチームのパフォーマンスを低下させるリスクを負う。
我々は、2つの専門的AIモデルの間で戦略的に切り替える、人間中心の適応型AIアンサンブルを新たに導入する。
論文 参考訳(メタデータ) (2026-02-23T18:22:58Z) - Human-AI Complementarity: A Goal for Amplified Oversight [2.7005766101211663]
本稿では,人間の監視の質を向上させるためにAIを活用する方法について検討する。
AIレーティングと人間のレーティングをAIレーダの信頼性に基づいて組み合わせた方が、どちらも頼りにしているよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2025-10-30T14:11:52Z) - Evaluating AI cyber capabilities with crowdsourced elicitation [0.0]
我々は、新興AI能力に対する時間的かつ費用対効果の高い状況認識を維持するための実践的なメカニズムとして、Elicitation bountiesを提案する。
METRの手法を適用すると、AIエージェントは中央のヒトCTF参加者から1時間以下の労力を必要とするサイバー課題を確実に解決できることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:40:32Z) - How Performance Pressure Influences AI-Assisted Decision Making [52.997197698288936]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Capturing Humans' Mental Models of AI: An Item Response Theory Approach [12.129622383429597]
我々は、AIエージェントのパフォーマンスが、他の人間のパフォーマンスよりも平均的にはるかに良いと期待していることを示します。
以上の結果から,AIエージェントの性能は他の人間よりも平均的に有意に向上することが示唆された。
論文 参考訳(メタデータ) (2023-05-15T23:17:26Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。