論文の概要: Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents
- arxiv url: http://arxiv.org/abs/2603.15457v1
- Date: Mon, 16 Mar 2026 15:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.555999
- Title: Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents
- Title(参考訳): エベイジブインテリジェンス:AIエージェントを評価するためのマルウェア分析からの教訓
- Authors: Simone Aonzo, Merve Sahin, Aurélien Francillon, Daniele Perito,
- Abstract要約: 我々は、AIエージェントの評価は、コンピュータセキュリティにおいてよく知られた障害モードに対して脆弱であると主張している。
マルウェアサンドボックスの回避に関する何十年にもわたっての研究と平行して、これは投機的な懸念ではないことを実証する。
我々は、テスト対象のシステムを潜在的に敵対的なものとして扱うAIエージェントを評価するための具体的な原則を概説する。
- 参考スコア(独自算出の注目度): 4.721714035243129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI) systems are increasingly adopted as tool-using agents that can plan, observe their environment, and take actions over extended time periods. This evolution challenges current evaluation practices where the AI models are tested in restricted, fully observable settings. In this article, we argue that evaluations of AI agents are vulnerable to a well-known failure mode in computer security: malicious software that exhibits benign behavior when it detects that it is being analyzed. We point out how AI agents can infer the properties of their evaluation environment and adapt their behavior accordingly. This can lead to overly optimistic safety and robustness assessments. Drawing parallels with decades of research on malware sandbox evasion, we demonstrate that this is not a speculative concern, but rather a structural risk inherent to the evaluation of adaptive systems. Finally, we outline concrete principles for evaluating AI agents, which treat the system under test as potentially adversarial. These principles emphasize realism, variability of test conditions, and post-deployment reassessment.
- Abstract(参考訳): 人工知能(AI)システムは、その環境を計画し、観察し、長期にわたって行動することのできるツール使用エージェントとして、ますます採用されている。
この進化は、AIモデルを制限された完全に監視可能な環境でテストする、現在の評価プラクティスに挑戦する。
本稿では,AIエージェントの評価がコンピュータセキュリティにおいてよく知られた障害モードに弱いことを論じる。
我々は,AIエージェントが評価環境の特性を推測し,それに応じて行動に適応する方法を指摘する。
これは過度に楽観的な安全性と堅牢性評価につながる可能性がある。
マルウェアサンドボックスの回避に関する数十年の研究と平行して、これは投機的懸念ではなく、適応システムの評価に固有の構造的リスクであることを示した。
最後に、テスト対象のシステムを潜在的に敵対的なものとして扱うAIエージェントを評価するための具体的な原則を概説する。
これらの原則は、現実主義、テスト条件の可変性、およびデプロイ後の再評価を強調する。
関連論文リスト
- Questionnaire Responses Do not Capture the Safety of AI Agents [0.0]
急速に成長するAI研究の分野は、このようなアセスメントの開発に費やされている。
標準手法は、仮説的なシナリオでそれらの値や振る舞いを記述するために、アンケート形式で大きな言語モデル(LLM)を誘導する。
構造的に同一の問題は、現在のAIアライメントアプローチに当てはまる、と私たちは主張する。
論文 参考訳(メタデータ) (2026-03-15T15:01:09Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective [31.55000083809067]
私たちは、ゲーム理論による抑止がAIを積極的に監視し、リスクを認識し、操作に対して回復力を与える方法を示します。
本稿では,(1)データ/フィードバック中毒に対するトレーニング時間監査,(2)制約されたレビュアーリソースによる事前デプロイ評価,(3)敵環境における堅牢なマルチモデル展開について報告する。
論文 参考訳(メタデータ) (2026-02-06T23:20:26Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文 参考訳(メタデータ) (2024-11-26T18:00:36Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Evaluating AI Evaluation: Perils and Prospects [8.086002368038658]
本稿では,これらのシステムに対する評価手法が根本的に不適切であることを主張する。
AIシステムを評価するためには改革が必要であり、インスピレーションを得るために認知科学に目を向けるべきである、と私は主張する。
論文 参考訳(メタデータ) (2024-07-12T12:37:13Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。