論文の概要: Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks
- arxiv url: http://arxiv.org/abs/2510.14207v2
- Date: Mon, 20 Oct 2025 19:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.419358
- Title: Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks
- Title(参考訳): エージェントにおけるヒトメスのエコー:マルチターンオンラインハラスメントアタックのためのLCMのベンチマーク
- Authors: Trilok Padhi, Pinxian Lu, Abdulkadir Erol, Tanmay Sutar, Gauri Sharma, Mina Sonmez, Munmun De Choudhury, Ugur Kursuncu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
i) 合成マルチターンハラスメント会話データセット、(ii) 繰り返しゲーム理論によって通知されるマルチエージェント(例えば、ハラッサー、被害者)シミュレーション、(iii) 記憶、計画、微調整にまたがるエージェントを攻撃する3つのジェイルブレイク手法、(iv) 混合メソッド評価フレームワークからなるオンラインハラスメントエージェントベンチマークを提案する。
- 参考スコア(独自算出の注目度): 10.7231991032233
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) agents are powering a growing share of interactive web applications, yet remain vulnerable to misuse and harm. Prior jailbreak research has largely focused on single-turn prompts, whereas real harassment often unfolds over multi-turn interactions. In this work, we present the Online Harassment Agentic Benchmark consisting of: (i) a synthetic multi-turn harassment conversation dataset, (ii) a multi-agent (e.g., harasser, victim) simulation informed by repeated game theory, (iii) three jailbreak methods attacking agents across memory, planning, and fine-tuning, and (iv) a mixed-methods evaluation framework. We utilize two prominent LLMs, LLaMA-3.1-8B-Instruct (open-source) and Gemini-2.0-flash (closed-source). Our results show that jailbreak tuning makes harassment nearly guaranteed with an attack success rate of 95.78--96.89% vs. 57.25--64.19% without tuning in Llama, and 99.33% vs. 98.46% without tuning in Gemini, while sharply reducing refusal rate to 1-2% in both models. The most prevalent toxic behaviors are Insult with 84.9--87.8% vs. 44.2--50.8% without tuning, and Flaming with 81.2--85.1% vs. 31.5--38.8% without tuning, indicating weaker guardrails compared to sensitive categories such as sexual or racial harassment. Qualitative evaluation further reveals that attacked agents reproduce human-like aggression profiles, such as Machiavellian/psychopathic patterns under planning, and narcissistic tendencies with memory. Counterintuitively, closed-source and open-source models exhibit distinct escalation trajectories across turns, with closed-source models showing significant vulnerability. Overall, our findings show that multi-turn and theory-grounded attacks not only succeed at high rates but also mimic human-like harassment dynamics, motivating the development of robust safety guardrails to ultimately keep online platforms safe and responsible.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
ジェイルブレイク以前の研究は、主にシングルターンのプロンプトに焦点を当てていたが、実際のハラスメントは、しばしばマルチターンのインタラクションに及んでいる。
本稿では,オンライン・ハラスメント・エージェント・ベンチマークについて述べる。
(i)複合マルチターンハラスメント会話データセット
(ii)繰り返しゲーム理論により通知されるマルチエージェント(eg,harasser, victims)シミュレーション
三 記憶、計画及び微調整を横切るエージェントを攻撃する三つのジェイルブレイク方法
(iv)混合メソッド評価フレームワーク。
LLaMA-3.1-8B-Instruct(オープンソース)とGemini-2.0-flash(クローズドソース)の2つの著名なLCMを利用する。
以上の結果から,Jailbreakチューニングは攻撃成功率95.78-96.89%,Llamaをチューニングせずに57.25-64.19%,ジェミニをチューニングせずに99.33%,ジェミニをチューニングせずに98.46%,両モデルの拒絶率1-2%でほぼ保証されている。
最も一般的な有害な行動は、84.9--87.8%対44.2--50.8%のInsultと、81.2--85.1%対31.5--38.8%のFlamingであり、セクハラやセクハラのようなセンシティブなカテゴリーに比べてガードレールが弱いことを示している。
質的評価により、攻撃されたエージェントは、計画中のマキアベリアン/サイコパシーパターンや記憶に伴う自己愛的傾向などの人間のような攻撃的プロファイルを再現することが明らかとなった。
反対に、クローズドソースモデルとオープンソースモデルは、ターン毎に異なるエスカレーショントラジェクトリを示し、クローズドソースモデルは重大な脆弱性を示している。
全体として,マルチターン攻撃と理論的攻撃は高い速度で成功するだけでなく,人間のようなハラスメントのダイナミクスを模倣し,オンラインプラットフォームを安全かつ責任的に維持する堅牢な安全ガードレールの開発を動機付けている。
関連論文リスト
- David vs. Goliath: Verifiable Agent-to-Agent Jailbreaking via Reinforcement Learning [1.8047694351309207]
我々は、安全に配慮したオペレーターの信頼された特権にツールレスの敵が"タグを付ける"脅威モデルを定式化し、会話だけで禁止されたツールの使用を誘導する。
創発的攻撃ベクトルを自律的に発見する強化学習フレームワークであるSlingshotを紹介する。
我々の研究は、タッグ・アロング・アタックを第一級で検証可能な脅威モデルとして確立し、環境相互作用のみを通じて、既製のオープンウェイトモデルから効果的なエージェント・アタックが引き出されることを示す。
論文 参考訳(メタデータ) (2026-02-02T17:56:55Z) - ReasoningBomb: A Stealthy Denial-of-Service Attack by Inducing Pathologically Long Reasoning in Large Reasoning Models [67.15960154375131]
大規模推論モデル(LRM)は、多段階推論トレースを明示した大規模言語モデルを拡張する。
この能力は、推論の高い計算コストを生かした、新しいタイプのプロンプト誘発推論時間拒否攻撃(PI-DoS)を導入している。
本稿では,強化学習に基づくPI-DoSフレームワークであるReasoningBombについて紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:53:01Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Large Reasoning Models Are Autonomous Jailbreak Agents [9.694940903078656]
AIモデルに組み込まれた安全メカニズムをバイパスする脱獄は、伝統的に複雑な技術手順や専門的な人間の専門知識を必要としてきた。
大規模推論モデル (LRM) の説得能力は, ジェイルブレイクを単純化し, スケールすることを示した。
本研究は,LRMが他のモデルの安全ガードレールを系統的に除去できるアライメントレグレッションを明らかにする。
論文 参考訳(メタデータ) (2025-08-04T18:27:26Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Intrinsic Model Weaknesses: How Priming Attacks Unveil Vulnerabilities in Large Language Models [40.180771969531456]
大規模言語モデル(LLM)は、様々な産業に大きな影響を与えているが、重大な欠陥、有害なコンテンツを生成する可能性に悩まされている。
我々は、不適切なコンテンツを生成する際の脆弱性を明らかにするために、LLMの新たな攻撃戦略を開発し、テストした。
論文 参考訳(メタデータ) (2025-02-23T08:09:23Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。