論文の概要: Detecting Malicious AI Agents Through Simulated Interactions
- arxiv url: http://arxiv.org/abs/2504.03726v1
- Date: Mon, 31 Mar 2025 12:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 05:54:43.248278
- Title: Detecting Malicious AI Agents Through Simulated Interactions
- Title(参考訳): シミュレーションインタラクションによる悪意のあるAIエージェントの検出
- Authors: Yulu Pi, Ella Bettison, Anna Becker,
- Abstract要約: 本研究では、悪意あるAIアシスタントの操作特性と、人間のようなシミュレーションユーザーと対話する際に、その動作が検出できるかどうかを調査する。
我々は,AIアシスタントとユーザ間のインタラクションを,複雑さと利害関係の異なる8つの意思決定シナリオでシミュレートする。
悪意のあるAIアシスタントは、シミュレーションされたユーザの脆弱性と感情的なトリガーを利用する、ドメイン固有のペルソナ対応の操作戦略を採用している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates malicious AI Assistants' manipulative traits and whether the behaviours of malicious AI Assistants can be detected when interacting with human-like simulated users in various decision-making contexts. We also examine how interaction depth and ability of planning influence malicious AI Assistants' manipulative strategies and effectiveness. Using a controlled experimental design, we simulate interactions between AI Assistants (both benign and deliberately malicious) and users across eight decision-making scenarios of varying complexity and stakes. Our methodology employs two state-of-the-art language models to generate interaction data and implements Intent-Aware Prompting (IAP) to detect malicious AI Assistants. The findings reveal that malicious AI Assistants employ domain-specific persona-tailored manipulation strategies, exploiting simulated users' vulnerabilities and emotional triggers. In particular, simulated users demonstrate resistance to manipulation initially, but become increasingly vulnerable to malicious AI Assistants as the depth of the interaction increases, highlighting the significant risks associated with extended engagement with potentially manipulative systems. IAP detection methods achieve high precision with zero false positives but struggle to detect many malicious AI Assistants, resulting in high false negative rates. These findings underscore critical risks in human-AI interactions and highlight the need for robust, context-sensitive safeguards against manipulative AI behaviour in increasingly autonomous decision-support systems.
- Abstract(参考訳): 本研究では、悪意のあるAIアシスタントの操作特性と、さまざまな意思決定コンテキストにおいて、人間のようなシミュレーションユーザーと対話する際に、悪意のあるAIアシスタントの動作を検出することができるかどうかを検討する。
また、悪意あるAIアシスタントの操作戦略と有効性に、インタラクションの深さと計画能力がどう影響するかについても検討する。
制御された実験設計を用いて、AIアシスタント(良心的かつ故意に悪意のある)とユーザ間のインタラクションを、複雑さと利害関係の異なる8つの意思決定シナリオでシミュレートする。
我々の手法は2つの最先端言語モデルを用いてインタラクションデータを生成し、悪意のあるAIアシスタントを検出するためにIntent-Aware Prompting (IAP)を実装している。
この結果から、悪意のあるAIアシスタントは、シミュレーションされたユーザーの脆弱性と感情的な引き金を利用して、ドメイン固有のペルソナ対応の操作戦略を採用することが明らかとなった。
特に、シミュレーションされたユーザは、操作に対する抵抗を示すが、インタラクションの深さが増加するにつれて、悪意のあるAIアシスタントに対してますます脆弱になる。
IAP検出法は偽陽性をゼロで高精度に検出するが、悪意のあるAIアシスタントの多くを検出できないため、偽陰性率が高い。
これらの発見は、人間とAIの相互作用における重要なリスクを浮き彫りにし、自律的な意思決定支援システムにおける操作型AI行動に対する堅牢で文脈に敏感な保護の必要性を強調している。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Human Decision-making is Susceptible to AI-driven Manipulation [87.24007555151452]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。
本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文 参考訳(メタデータ) (2025-02-11T15:56:22Z) - Let people fail! Exploring the influence of explainable virtual and robotic agents in learning-by-doing tasks [45.23431596135002]
本研究は,古典的対パートナー意識による説明が学習作業中の人間の行動とパフォーマンスに与える影響を比較検討した。
その結果, パートナー意識による説明は, 関係する人工エージェントの種類によって, 参加者に異なる影響を及ぼした。
論文 参考訳(メタデータ) (2024-11-15T13:22:04Z) - How Performance Pressure Influences AI-Assisted Decision Making [57.53469908423318]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。
人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文 参考訳(メタデータ) (2023-01-06T00:33:08Z) - Blessing from Human-AI Interaction: Super Reinforcement Learning in
Confounded Environments [19.944163846660498]
本稿では,データ駆動シーケンシャル意思決定に人間-AIインタラクションを活用する超強化学習のパラダイムを紹介する。
未測定のコンファウンディングを伴う意思決定プロセスでは、過去のエージェントによって取られたアクションは、未開示の情報に対する貴重な洞察を提供することができる。
我々は、いくつかの超政治学習アルゴリズムを開発し、その理論的性質を体系的に研究する。
論文 参考訳(メタデータ) (2022-09-29T16:03:07Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。