論文の概要: BashArena: A Control Setting for Highly Privileged AI Agents
- arxiv url: http://arxiv.org/abs/2512.15688v1
- Date: Wed, 17 Dec 2025 18:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.106678
- Title: BashArena: A Control Setting for Highly Privileged AI Agents
- Title(参考訳): BashArena:AIエージェントのコントロール設定
- Authors: Adam Kaufman, James Lucassen, Tyler Tracy, Cody Rushing, Aryan Bhatt,
- Abstract要約: セキュリティクリティカルな環境でAI制御技術を研究するための環境であるBashArenaを紹介する。
BashArenaには637のLinuxシステム管理とインフラストラクチャエンジニアリングタスクが含まれている。
我々は,複数のフロンティアLSMを,タスクを完了し,検出されていないサボタージュを実行し,サボタージュの試みを検出する能力で評価した。
- 参考スコア(独自算出の注目度): 1.685485565763117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future AI agents might run autonomously with elevated privileges. If these agents are misaligned, they might abuse these privileges to cause serious damage. The field of AI control develops techniques that make it harder for misaligned AIs to cause such damage, while preserving their usefulness. We introduce BashArena, a setting for studying AI control techniques in security-critical environments. BashArena contains 637 Linux system administration and infrastructure engineering tasks in complex, realistic environments, along with four sabotage objectives (execute malware, exfiltrate secrets, escalate privileges, and disable firewall) for a red team to target. We evaluate multiple frontier LLMs on their ability to complete tasks, perform sabotage undetected, and detect sabotage attempts. Claude Sonnet 4.5 successfully executes sabotage while evading monitoring by GPT-4.1 mini 26% of the time, at 4% trajectory-wise FPR. Our findings provide a baseline for designing more effective control protocols in BashArena. We release the dataset as a ControlArena setting and share our task generation pipeline.
- Abstract(参考訳): 将来のAIエージェントは、より高い特権を持って自律的に走るかもしれない。
これらのエージェントが不一致であれば、これらの特権を乱用して重大な損害を与える可能性がある。
AI制御の分野は、その有用性を保ちながら、AIの不整合がそのような損傷を引き起こすのを難しくする技術を開発する。
セキュリティクリティカルな環境でAI制御技術を研究するための環境であるBashArenaを紹介する。
BashArenaには、複雑な現実的な環境における637のLinuxシステム管理とインフラストラクチャエンジニアリングタスクに加えて、レッドチームがターゲットとする4つのサボタージュ目標(マルウェアの実行、秘密の流出、特権のエスカレート、ファイアウォールの無効化)が含まれている。
我々は,複数のフロンティアLSMを,タスクを完了し,検出されていないサボタージュを実行し,サボタージュの試みを検出する能力で評価した。
クロード・ソネット 4.5 は GPT-4.1 mini 26% の速度で 4% の速度でサボタージュを回避し、サボタージュを成功させた。
BashArenaでより効率的な制御プロトコルを設計するためのベースラインを提供する。
データセットをControlArena設定としてリリースし、タスク生成パイプラインを共有します。
関連論文リスト
- CTRL-ALT-DECEIT: Sabotage Evaluations for Automated AI R&D [4.230181169227057]
機械学習(ML)エンジニアリングを行う際に,AIエージェントがユーザの興味に反して行動する能力について検討する。
現実的なMLタスクのベンチマークであるMLE-Benchを拡張し、バックドアを埋め込んだり、意図的に一般化の失敗を引き起こすようなコードサボタージュタスクを実行します。
我々は、不審なエージェントの挙動を検出するためにLMモニターを使用し、これらのモニターによって検出されることなく、モデル能力をサボタージュやサンドバッグに測定する。
論文 参考訳(メタデータ) (2025-11-13T03:02:36Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - "Your AI, My Shell": Demystifying Prompt Injection Attacks on Agentic AI Coding Editors [18.075392981522565]
攻撃者が悪質な指示で外部開発資源に毒を盛ることで、リモートでこれらのシステムを利用する方法を示す。
AIShellJackはエージェントAIコーディングエディタのインジェクション脆弱性を評価する自動テストフレームワークである。
評価の結果,攻撃成功率は悪意のあるコマンドを実行する場合,最大84%に達する可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-26T08:20:54Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - STACK: Adversarial Attacks on LLM Safeguard Pipelines [5.784929232265091]
Anthropicが最新のClaude 4 Opusモデルを1つの防衛パイプラインを使ってガードする。
Google DeepMindやOpenAIを含む他のフロンティア開発者は、近く同様の防御を展開すると約束している。
このギャップに対処するため、オープンソースのディフェンスパイプラインを開発し、再チーム化する。
論文 参考訳(メタデータ) (2025-06-30T17:21:08Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。