Fugu-MT 論文翻訳(概要): Ctrl-Z: Controlling AI Agents via Resampling

論文の概要: Ctrl-Z: Controlling AI Agents via Resampling

arxiv url: http://arxiv.org/abs/2504.10374v1
Date: Mon, 14 Apr 2025 16:22:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 21:50:59.614025
Title: Ctrl-Z: Controlling AI Agents via Resampling
Title（参考訳）: Ctrl-Z:リサンプリングによるAIエージェントの制御
Authors: Aryan Bhatt, Cody Rushing, Adam Kaufman, Tyler Tracy, Vasil Georgiev, David Matolcsi, Akbir Khan, Buck Shlegeris,
Abstract要約: マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築した。各種安全対策により、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。
参考スコア（独自算出の注目度）: 2.505902477669827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Control evaluations measure whether monitoring and security protocols for AI systems prevent intentionally subversive AI models from causing harm. Our work presents the first control evaluation performed in an agent environment. We construct BashBench, a dataset of 257 challenging multi-step system administration tasks, and evaluate whether various safety measures can prevent an adversarially constructed AI agent from covertly downloading and executing malicious code in this environment. This multi-step setting introduces new attack and defense dynamics, which we investigate in order to design novel control protocols that prevent safety failures without hindering the ability of non-malicious agents to perform useful work. We introduce a class of control protocols called resample protocols that dynamically take additional samples of certain actions. We find these protocols significantly improve on existing techniques by selectively blocking the AI agent from executing suspicious code and incriminating the agent by generating additional examples of dangerous behavior. We measure the tradeoff between attack prevention and usefulness; our best protocol combines resampling with analysis of previous steps, reducing the success rate of attacks from 58% to 7% at a 5% cost to the performance of a non-malicious agent.
Abstract（参考訳）: 制御評価は、AIシステムの監視およびセキュリティプロトコルが意図的にAIモデルに害を与えるのを防ぐかどうかを測定する。本研究はエージェント環境で行った最初の制御評価である。マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築し、さまざまな安全対策が、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。このマルチステップ設定では新たな攻撃・防御のダイナミクスを導入し,非致命的なエージェントが有用な作業を行うのを妨げることなく,安全性を損なうような新しい制御プロトコルの設計について検討する。我々は、特定のアクションの追加サンプルを動的に取得するresampleプロトコルと呼ばれる制御プロトコルのクラスを導入する。これらのプロトコルは、AIエージェントが不審なコードの実行を選択的に阻止し、危険な行動の付加例を生成してエージェントを犯すことにより、既存の手法を大幅に改善する。我々は,攻撃防止と有用性の間のトレードオフを計測し,攻撃の成功率を5%のコストで58%から7%に削減し,前段階の分析と組み合わせる。

関連論文リスト

How to evaluate control measures for LLM agents? A trajectory from today to superintelligence [4.027240141373031]
我々は、AI能力の向上にレッドチームの余裕を適応するためのフレームワークを提案する。エージェントの実際の能力プロファイルの知識が比例制御評価にどのように役立つかを示す。
論文参考訳（メタデータ） (2025-04-07T16:52:52Z)
Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems [1.2564343689544843]
我々は、セキュリティリスクとトレードオフを研究するために、共有目的に基づいて協力するAIエージェントのシミュレーションを開発する。我々は、悪意のある指示の多重ホップ拡散という、感染した悪意のあるプロンプトを観察する。この結果から,マルチエージェントシステムにおけるセキュリティと協調効率のトレードオフの可能性が示唆された。
論文参考訳（メタデータ） (2025-02-26T14:00:35Z)
MELON: Indirect Prompt Injection Defense via Masked Re-execution and Tool Comparison [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱である。我々は新しいIPI防御であるMELONを提示する。 MELONは攻撃防止と実用保存の両方においてSOTA防御に優れていた。
論文参考訳（メタデータ） (2025-02-07T18:57:49Z)
CP-Guard+: A New Paradigm for Malicious Agent Detection and Defense in Collaborative Perception [53.088988929450494]
協調知覚(CP)は、安全で自律的な運転のための有望な方法である。本稿では,悪意のあるエージェントを機能レベルで効果的に識別する,悪意のあるエージェント検出のための新しいパラダイムを提案する。また,CP-Guard+と呼ばれる堅牢な防御手法を開発し,良性の表現と悪質な特徴とのマージンを高める。
論文参考訳（メタデータ） (2025-02-07T12:58:45Z)
Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文参考訳（メタデータ） (2024-10-22T12:24:41Z)
Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols [52.40622903199512]
本稿では,多目的かつ部分的に観察可能なゲームとして,AI-Control Gamesを紹介した。我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化、評価、合成するために、フォーマリズムを適用した。
論文参考訳（メタデータ） (2024-09-12T12:30:07Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。 MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文参考訳（メタデータ） (2023-10-18T11:36:42Z)
Balancing detectability and performance of attacks on the control channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文参考訳（メタデータ） (2021-09-15T09:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。