Fugu-MT 論文翻訳(概要): "Are You Sure?": An Empirical Study of Human Perception Vulnerability in LLM-Driven Agentic Systems

論文の概要: "Are You Sure?": An Empirical Study of Human Perception Vulnerability in LLM-Driven Agentic Systems

arxiv url: http://arxiv.org/abs/2602.21127v1
Date: Tue, 24 Feb 2026 17:23:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.859787
Title: "Are You Sure?": An Empirical Study of Human Perception Vulnerability in LLM-Driven Agentic Systems
Title（参考訳）: LLM駆動型エージェントシステムにおける人間の知覚脆弱性に関する実証的研究
Authors: Xinfeng Li, Shenyu Dai, Kelong Zheng, Yue Xiao, Gelei Deng, Wei Dong, Xiaofeng Wang,
Abstract要約: AMDに対するヒトの感受性を測定するため,303人の参加者による最初の大規模実験を行った。重要な10の発見は、重大な脆弱性を明らかにし、将来の防衛的視点を提供します。 HAT-Labに基づく経験的学習では、リスクを知覚するユーザの90%以上がAMDに対して注意を喚起している。
参考スコア（独自算出の注目度）: 21.769264539684333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) agents are rapidly becoming trusted copilots in high-stakes domains like software development and healthcare. However, this deepening trust introduces a novel attack surface: Agent-Mediated Deception (AMD), where compromised agents are weaponized against their human users. While extensive research focuses on agent-centric threats, human susceptibility to deception by a compromised agent remains unexplored. We present the first large-scale empirical study with 303 participants to measure human susceptibility to AMD. This is based on HAT-Lab (Human-Agent Trust Laboratory), a high-fidelity research platform we develop, featuring nine carefully crafted scenarios spanning everyday and professional domains (e.g., healthcare, software development, human resources). Our 10 key findings reveal significant vulnerabilities and provide future defense perspectives. Specifically, only 8.6% of participants perceive AMD attacks, while domain experts show increased susceptibility in certain scenarios. We identify six cognitive failure modes in users and find that their risk awareness often fails to translate to protective behavior. The defense analysis reveals that effective warnings should interrupt workflows with low verification costs. With experiential learning based on HAT-Lab, over 90% of users who perceive risks report increased caution against AMD. This work provides empirical evidence and a platform for human-centric agent security research.
Abstract（参考訳）: 大規模言語モデル(LLM)エージェントは、ソフトウェア開発やヘルスケアといった高度な領域において、急速に信頼できるコパイロットになりつつある。エージェント・メディア・デセプション(AMD: Agent-Mediated Deception)は、侵害されたエージェントが人間のユーザーに対して武器として使用される。エージェント中心の脅威に焦点が当てられているが、妥協されたエージェントによる騙しに対する人間の感受性は未解明のままである。 AMDに対するヒトの感受性を測定するため,303人の参加者による最初の大規模実験を行った。 HAT-Lab(Human-Agent Trust Laboratory)をベースにしています。HAT-Lab(Human-Agent Trust Laboratory)は、私たちの開発する高忠実な研究プラットフォームで、日々のドメインとプロフェッショナルドメイン(ヘルスケア、ソフトウェア開発、人的資源など)にまたがる9つの慎重に構築されたシナリオを特徴とする。重要な10の発見は、重大な脆弱性を明らかにし、将来の防衛的視点を提供します。具体的には、参加者の8.6%がAMD攻撃を察知し、一方、ドメインの専門家は特定のシナリオにおける感受性を高めた。我々は,ユーザの認知的障害モードを6つ同定し,リスク認識が保護行動に変換できない場合が多いことを確認した。防御分析により、効果的な警告は、低い検証コストでワークフローを中断すべきであることが判明した。 HAT-Labに基づく経験的学習では、リスクを知覚するユーザの90%以上がAMDに対して注意を喚起している。この研究は、実証的な証拠と、人間中心のエージェントセキュリティ研究のためのプラットフォームを提供する。

関連論文リスト

OMNI-LEAK: Orchestrator Multi-Agent Network Induced Data Leakage [59.3826294523924]
オーケストレータ設定として知られる,一般的なマルチエージェントパターンのセキュリティ脆弱性について検討する。本報告では,フロンティアモデルの攻撃カテゴリに対する感受性を報告し,推論モデルと非推論モデルの両方が脆弱であることが確認された。
論文参考訳（メタデータ） (2026-02-13T21:32:32Z)
Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems [15.276177828252829]
リスクのある2つのシナリオを識別する: 悪質なエージェントを持つ悪意のあるユーザ(MU-BA)と悪質なエージェントを持つ良質なユーザ(BU-MA)。 Indicit Malicious Behavior Injection Attack (IMBIA)を導入し、マルチエージェントシステムをどのように操作して悪質な機能を隠蔽したソフトウェアを生成するかを示す。本研究は,マルチエージェントソフトウェア開発システムにおける堅牢なセキュリティ対策の急激なニーズを浮き彫りにするものである。
論文参考訳（メタデータ） (2025-11-23T14:26:35Z)
SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents [63.70653857721785]
我々は、低品質な検索結果の出現率と、エージェントの動作を誤る可能性を実証する2つの実験を行った。この脅威に対処するため、私たちは、体系的、スケーラブルで、コスト効率のよい自動化されたレッドチームフレームワークを導入しました。
論文参考訳（メタデータ） (2025-09-28T07:05:17Z)
The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.0]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、従来のコンテンツ生成からシステムレベルの妥協まで及ぶセキュリティ脆弱性を導入している。本稿では,自律エージェント内の推論エンジンとして使用されるLLMのセキュリティを総合的に評価する。異なる攻撃面と信頼境界がどのように活用され、そのような乗っ取りを組織化できるかを示す。
論文参考訳（メタデータ） (2025-07-09T13:54:58Z)
Who's the Mole? Modeling and Detecting Intention-Hiding Malicious Agents in LLM-Based Multi-Agent Systems [25.6233463223145]
大規模言語モデル(LLM-MAS)を用いたマルチエージェントシステムにおける意図隠蔽脅威について検討する。高いステルス性を維持しながらタスク完了を微妙に妨害する4つの代表的な攻撃パラダイムを設計する。これらの脅威に対処するために,心理学に着想を得た検出フレームワークであるAgentXposedを提案する。
論文参考訳（メタデータ） (2025-07-07T07:34:34Z)
OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents [60.78202583483591]
コンピュータ使用エージェントの安全性を計測する新しいベンチマークであるOS-Harmを紹介する。 OS-HarmはOSWorld環境上に構築されており、故意のユーザ誤用、インジェクション攻撃、モデル誤動作の3つのカテゴリでモデルをテストすることを目指している。我々は、フロンティアモデルに基づいてコンピュータ利用エージェントを評価し、その安全性に関する洞察を提供する。
論文参考訳（メタデータ） (2025-06-17T17:59:31Z)
Among Us: A Sandbox for Measuring and Detecting Agentic Deception [1.1893676124374688]
我々は、言語ベースのエージェントが長期的かつオープンな偽装を示す社会的偽装ゲームである$textitAmong Us$を紹介した。 RLで訓練されたモデルは、検出するよりも、比較的優れた騙しを生み出すことが分かりました。また、2つのSAE機能は、偽造検出でうまく機能するが、モデルがより少ない嘘をつくように操ることができない。
論文参考訳（メタデータ） (2025-04-05T06:09:32Z)
PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文参考訳（メタデータ） (2024-01-22T12:11:55Z)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。 MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文参考訳（メタデータ） (2023-10-18T11:36:42Z)
Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文参考訳（メタデータ） (2022-07-20T19:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。