論文の概要: Detection of adversarial intent in Human-AI teams using LLMs
- arxiv url: http://arxiv.org/abs/2603.20976v1
- Date: Sat, 21 Mar 2026 23:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.177311
- Title: Detection of adversarial intent in Human-AI teams using LLMs
- Title(参考訳): LLMを用いた人間-AIチームにおける敵意の検出
- Authors: Abed K. Musaffar, Ambuj Singh, Francesco Bullo,
- Abstract要約: 大規模言語モデル(LLM)は、複雑なタスクのサポートエージェントとして、人間-AIチームにますます多くデプロイされている。
本稿では,混成AIチームにおける防衛監督の役割について検討する。
LLMは、タスク固有の情報なしで、リアルタイムで悪意のある振る舞いを識別できることがわかった。
- 参考スコア(独自算出の注目度): 4.008152563028669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in human-AI teams as support agents for complex tasks such as information retrieval, programming, and decision-making assistance. While these agents' autonomy and contextual knowledge enables them to be useful, it also exposes them to a broad range of attacks, including data poisoning, prompt injection, and even prompt engineering. Through these attack vectors, malicious actors can manipulate an LLM agent to provide harmful information, potentially manipulating human agents to make harmful decisions. While prior work has focused on LLMs as attack targets or adversarial actors, this paper studies their potential role as defensive supervisors within mixed human-AI teams. Using a dataset consisting of multi-party conversations and decisions for a real human-AI team over a 25 round horizon, we formulate the problem of malicious behavior detection from interaction traces. We find that LLMs are capable of identifying malicious behavior in real-time, and without task-specific information, indicating the potential for task-agnostic defense. Moreover, we find that the malicious behavior of interest is not easily identified using simple heuristics, further suggesting the introduction of LLM defenders could render human teams more robust to certain classes of attack.
- Abstract(参考訳): 大規模言語モデル(LLM)は、情報検索、プログラミング、意思決定支援といった複雑なタスクのサポートエージェントとして、人間-AIチームにますます多くデプロイされている。
これらのエージェントの自律性と文脈的知識は、それらが有用であることを可能にする一方で、データ中毒、迅速な注入、さらにはエンジニアリングの促進など、幅広い攻撃にさらされる。
これらの攻撃ベクターを通じて、悪意のあるアクターはLLMエージェントを操作して有害な情報を提供し、有害な決定を行うために人間のエージェントを操作する可能性がある。
従来,LLMを攻撃対象や敵のアクターとして重視してきたが,本研究では,混在するAIチームにおける防衛スーパーバイザーとしての役割について検討した。
マルチパーティの会話と実際の人間-AIチームのための決定からなるデータセットを25ラウンドの地平線上で使用することにより、インタラクショントレースから悪意のある行動検出の問題を定式化する。
LLMは、タスク固有の情報なしで、リアルタイムで悪意のある行動を特定することができ、タスクに依存しない防御の可能性を示している。
さらに、簡単なヒューリスティックスを用いて、悪意ある利害行動が容易に識別できないこと、さらにLLMディフェンダーの導入によって、特定の攻撃クラスに対してより堅牢な人間チームが得られることを示唆している。
関連論文リスト
- Assessing Spear-Phishing Website Generation in Large Language Model Coding Agents [0.10195618602298682]
大規模言語モデルは、コンピュータプログラミングでますます使われている。
この研究は、異なるLLMの能力と潜在的に危険なコードベースを生成する意志を比較します。
解析の結果, LLMの計測値とスピアフィッシングサイトの生成性能の相関性はますます低くなった。
論文 参考訳(メタデータ) (2026-02-13T12:12:53Z) - Adversarial Reinforcement Learning for Large Language Model Agent Safety [20.704989548285372]
大きな言語モデル(LLM)エージェントは、複雑なタスクを完了するためにGoogle Searchのようなツールを利用することができる。
現在の防衛戦略は、既知の攻撃のデータセットに精巧なLLMエージェントを頼っている。
対戦型強化学習(RL)を両プレイヤーゼロサムゲームとして定式化して活用する新しいフレームワークであるエージェント安全のための敵強化学習(ARLAS)を提案する。
論文 参考訳(メタデータ) (2025-10-06T23:09:18Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Bridging Expertise Gaps: The Role of LLMs in Human-AI Collaboration for Cybersecurity [17.780795900414716]
本研究では,大規模言語モデル(LLM)が知的協力者として機能し,サイバーセキュリティ意思決定における専門的ギャップを埋めることができるかを検討する。
我々は,人間とAIのコラボレーションによって作業性能が向上し,フィッシング検出における偽陽性と侵入検出における偽陰性が低減されることを見出した。
論文 参考訳(メタデータ) (2025-05-06T04:47:52Z) - UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクに対してますます強力になっている。
UDoraはLDMエージェント用に設計された統一されたレッド・チーム・フレームワークで、エージェントの推論プロセスを動的にハイジャックし、悪意ある振る舞いを強制する。
論文 参考訳(メタデータ) (2025-02-28T21:30:28Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。