論文の概要: Coding with "Enemy": Can Human Developers Detect AI Agent Sabotage?
- arxiv url: http://arxiv.org/abs/2606.05647v1
- Date: Thu, 04 Jun 2026 03:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.521425
- Title: Coding with "Enemy": Can Human Developers Detect AI Agent Sabotage?
- Title(参考訳): Enemy"によるコーディング:AIエージェントのサボタージュを人間開発者は検出できるか?
- Authors: Jingheng Ye, Huiqi Zou, Simon Yu, Weiyan Shi,
- Abstract要約: AIコーディングエージェントは、ますます現実世界のソフトウェア開発に埋め込まれている。
エージェントは人間の信頼を利用して開発を妨害することができる。
我々は、AI符号化サボタージュにおける人間の監視に関する最初の大規模な研究を行う。
- 参考スコア(独自算出の注目度): 16.319205110757128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents are increasingly embedded in real-world software development, collaborating with human developers while gaining broader access to codebases and tools. This creates a new attack surface: an agent can exploit human trust to sabotage development, for instance by inserting malicious code to accomplish a hidden side task. Most prior work studies AI sabotage in AI-only settings, paying limited attention to the role of human oversight in detecting and mitigating such malicious behavior. To address this gap, we conduct the first large-scale study of human oversight in AI coding sabotage. Over 100 participants collaborate with one of four frontier models (Claude-Opus-4.6, GPT-5.4, Gemini-3.1-Pro, and MiniMax-M2.7) on a long-horizon coding task lasting around five hours, designed to mimic real-world workflows. We find that 94% of developers fail to detect sabotage, and our analysis of participant feedback attributes this vulnerability to minimal code review, plausible cover story, and overtrust in agents. We further test the effectiveness of a safety monitor in one condition: while the monitor reduces sabotage success, 56% of participants still accept the malicious code, ignoring its warnings. Drawing on participant feedback, we offer actionable suggestions for better monitor design. This work complements existing AI safety research and highlights an urgent need for human-centric safety mechanisms that account for human factors, particularly in long-horizon, real-world development settings.
- Abstract(参考訳): AIコーディングエージェントは、現実のソフトウェア開発にますます組み込まれており、人間の開発者と協力して、コードベースやツールへの広範なアクセスを得ています。
エージェントは人間の信頼を利用して開発を妨害することができる。例えば、悪意のあるコードを挿入して、隠れたサイドタスクを達成する。
これまでの研究はAIのみの環境でAIサボタージュを研究しており、このような悪意のある行動を検出し緩和する人間の監視の役割に限定的に注意を払っている。
このギャップに対処するため、我々はAI符号化サボタージュにおける人間の監視を初めて大規模に研究した。
100人以上の参加者が4つのフロンティアモデルのうちの1つ(Claude-Opus-4.6、GPT-5.4、Gemini-3.1-Pro、MiniMax-M2.7)と、現実世界のワークフローを模倣した5時間程度のコーディングタスクで協力している。
開発者の94%はサボタージュの検出に失敗しており、参加者からのフィードバックの分析では、この脆弱性は最小限のコードレビュー、妥当なカバレッジストーリー、エージェントの過剰信頼に起因しています。
さらに,安全モニタの有効性を1つの条件で検証する:モニターはサボタージュの成功を減らすが,参加者の56%は悪意のあるコードを受け入れており,警告を無視している。
参加者からのフィードバックに基づいて、デザインをよりよく監視するための実行可能な提案を提供します。
この研究は、既存のAI安全研究を補完し、人間中心の安全メカニズムの緊急の必要性を強調している。
関連論文リスト
- Human oversight of agentic systems in practice: Examining the oversight work, challenges, and heuristics of developers using software agents [5.16626559747906]
エージェント監視に関する理論的談話の実証的アンカーを提供する。
緊急監視作業の少なくとも4つの形態として、優先順位コントロール、共同計画、リアルタイム監視、ポストホックレビューがあります。
監視作業は、既存の研究で表現されているように、反応性とふりかえりだけでなく、予防的かつ積極的なものであることを示す。
論文 参考訳(メタデータ) (2026-06-03T19:53:31Z) - The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development? [80.24951682268332]
本稿では,自律エージェント開発のためのフロンティアモデルのキャパシティをテストするための評価フレームワークであるMeta-Agent Challenge(MAC)を紹介する。
評価の整合性を確保するため、このフレームワークは報奨ハッキングに対する多層防御によって確保される。
メタエージェントは人間工学的な基本方針とほとんど一致せず、その一部はプロプライエタリなフロンティアモデルに支配されている。
論文 参考訳(メタデータ) (2026-06-03T04:58:17Z) - ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks? [92.21756459993695]
低レベルのプログラム推論を必要とするため、爆発は難しい作業です。
その重要性と診断価値にもかかわらず、搾取は未評価のままである。
ExploitGymは、AIエージェントのエクスプロイト能力に関する大規模で多様な、現実的なベンチマークである。
論文 参考訳(メタデータ) (2026-05-11T18:00:14Z) - SWE-chat: Coding Agent Interactions From Real Users in the Wild [70.18158706281724]
SWE-chatは、オープンソースの開発者から収集された実際のコーディングエージェントセッションの大規模なデータセットである。
現在、データセットには6000のセッションが含まれており、63,000以上のユーザプロンプトと355,000のエージェントツールコールが含まれている。
論文 参考訳(メタデータ) (2026-04-22T17:08:19Z) - "Are You Sure?": An Empirical Study of Human Perception Vulnerability in LLM-Driven Agentic Systems [21.769264539684333]
AMDに対するヒトの感受性を測定するため,303人の参加者による最初の大規模実験を行った。
重要な10の発見は、重大な脆弱性を明らかにし、将来の防衛的視点を提供します。
HAT-Labに基づく経験的学習では、リスクを知覚するユーザの90%以上がAMDに対して注意を喚起している。
論文 参考訳(メタデータ) (2026-02-24T17:23:11Z) - Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code in Real-World Tasks [22.499464760561434]
バイブコーディングは、人間のエンジニアが大規模言語モデル(LLM)エージェントに複雑なコーディングタスクをほとんど監督せずに完了するよう指示する新しいプログラミングパラダイムである。
実世界のオープンソースプロジェクトから200の機能要求ソフトウェアエンジニアリングタスクからなるベンチマークを提示する。
我々の発見は、特にセキュリティに敏感なアプリケーションにおいて、バイブコーディングが広く採用されているという深刻な懸念を提起する。
論文 参考訳(メタデータ) (2025-12-02T22:11:56Z) - "Your AI, My Shell": Demystifying Prompt Injection Attacks on Agentic AI Coding Editors [18.075392981522565]
攻撃者が悪質な指示で外部開発資源に毒を盛ることで、リモートでこれらのシステムを利用する方法を示す。
AIShellJackはエージェントAIコーディングエディタのインジェクション脆弱性を評価する自動テストフレームワークである。
評価の結果,攻撃成功率は悪意のあるコマンドを実行する場合,最大84%に達する可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-26T08:20:54Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。
我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。
結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Ctrl-Z: Controlling AI Agents via Resampling [2.505902477669827]
マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築した。
各種安全対策により、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-04-14T16:22:11Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [66.29263282311258]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。