論文の概要: Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks
- arxiv url: http://arxiv.org/abs/2510.14207v1
- Date: Thu, 16 Oct 2025 01:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.669572
- Title: Echoes of Human Malice in Agents: Benchmarking LLMs for Multi-Turn Online Harassment Attacks
- Title(参考訳): エージェントにおけるヒトメスのエコー:マルチターンオンラインハラスメントアタックのためのLCMのベンチマーク
- Authors: Trilok Padhi, Pinxian Lu, Abdulkadir Erol, Tanmay Sutar, Gauri Sharma, Mina Sonmez, Munmun De Choudhury, Ugur Kursuncu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
i) 合成マルチターンハラスメント会話データセット、(ii) 繰り返しゲーム理論によって通知されるマルチエージェント(例えば、ハラッサー、被害者)シミュレーション、(iii) 記憶、計画、微調整にまたがるエージェントを攻撃する3つのジェイルブレイク手法、(iv) 混合メソッド評価フレームワークからなるオンラインハラスメントエージェントベンチマークを提案する。
- 参考スコア(独自算出の注目度): 10.7231991032233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Model (LLM) agents are powering a growing share of interactive web applications, yet remain vulnerable to misuse and harm. Prior jailbreak research has largely focused on single-turn prompts, whereas real harassment often unfolds over multi-turn interactions. In this work, we present the Online Harassment Agentic Benchmark consisting of: (i) a synthetic multi-turn harassment conversation dataset, (ii) a multi-agent (e.g., harasser, victim) simulation informed by repeated game theory, (iii) three jailbreak methods attacking agents across memory, planning, and fine-tuning, and (iv) a mixed-methods evaluation framework. We utilize two prominent LLMs, LLaMA-3.1-8B-Instruct (open-source) and Gemini-2.0-flash (closed-source). Our results show that jailbreak tuning makes harassment nearly guaranteed with an attack success rate of 95.78--96.89% vs. 57.25--64.19% without tuning in Llama, and 99.33% vs. 98.46% without tuning in Gemini, while sharply reducing refusal rate to 1-2% in both models. The most prevalent toxic behaviors are Insult with 84.9--87.8% vs. 44.2--50.8% without tuning, and Flaming with 81.2--85.1% vs. 31.5--38.8% without tuning, indicating weaker guardrails compared to sensitive categories such as sexual or racial harassment. Qualitative evaluation further reveals that attacked agents reproduce human-like aggression profiles, such as Machiavellian/psychopathic patterns under planning, and narcissistic tendencies with memory. Counterintuitively, closed-source and open-source models exhibit distinct escalation trajectories across turns, with closed-source models showing significant vulnerability. Overall, our findings show that multi-turn and theory-grounded attacks not only succeed at high rates but also mimic human-like harassment dynamics, motivating the development of robust safety guardrails to ultimately keep online platforms safe and responsible.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、対話型Webアプリケーションのシェアを拡大するが、誤用や害に弱いままである。
ジェイルブレイク以前の研究は、主にシングルターンのプロンプトに焦点を当てていたが、実際のハラスメントは、しばしばマルチターンのインタラクションに及んでいる。
本稿では,オンライン・ハラスメント・エージェント・ベンチマークについて述べる。
(i)複合マルチターンハラスメント会話データセット
(ii)繰り返しゲーム理論により通知されるマルチエージェント(eg,harasser, victims)シミュレーション
三 記憶、計画及び微調整を横切るエージェントを攻撃する三つのジェイルブレイク方法
(iv)混合メソッド評価フレームワーク。
LLaMA-3.1-8B-Instruct(オープンソース)とGemini-2.0-flash(クローズドソース)の2つの著名なLCMを利用する。
以上の結果から,Jailbreakチューニングは攻撃成功率95.78-96.89%,Llamaをチューニングせずに57.25-64.19%,ジェミニをチューニングせずに99.33%,ジェミニをチューニングせずに98.46%,両モデルの拒絶率1-2%でほぼ保証されている。
最も一般的な有害な行動は、84.9--87.8%対44.2--50.8%のInsultと、81.2--85.1%対31.5--38.8%のFlamingであり、セクハラやセクハラのようなセンシティブなカテゴリーに比べてガードレールが弱いことを示している。
質的評価により、攻撃されたエージェントは、計画中のマキアベリアン/サイコパシーパターンや記憶に伴う自己愛的傾向などの人間のような攻撃的プロファイルを再現することが明らかとなった。
反対に、クローズドソースモデルとオープンソースモデルは、ターン毎に異なるエスカレーショントラジェクトリを示し、クローズドソースモデルは重大な脆弱性を示している。
全体として,マルチターン攻撃と理論的攻撃は高い速度で成功するだけでなく,人間のようなハラスメントのダイナミクスを模倣し,オンラインプラットフォームを安全かつ責任的に維持する堅牢な安全ガードレールの開発を動機付けている。
関連論文リスト
- Large Reasoning Models Are Autonomous Jailbreak Agents [9.694940903078656]
AIモデルに組み込まれた安全メカニズムをバイパスする脱獄は、伝統的に複雑な技術手順や専門的な人間の専門知識を必要としてきた。
大規模推論モデル (LRM) の説得能力は, ジェイルブレイクを単純化し, スケールすることを示した。
本研究は,LRMが他のモデルの安全ガードレールを系統的に除去できるアライメントレグレッションを明らかにする。
論文 参考訳(メタデータ) (2025-08-04T18:27:26Z) - Adversarial Preference Learning for Robust LLM Alignment [24.217309343426297]
逆選択学習(英: Adversarial Preference Learning, APL)は、3つの重要な革新を取り入れた反復的逆選択学習法である。
第一に、モデル固有の嗜好確率に基づく直接的な有害度指標。
第二に、入力固有の逆数変化を合成する条件生成攻撃者。
論文 参考訳(メタデータ) (2025-05-30T09:02:07Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Intrinsic Model Weaknesses: How Priming Attacks Unveil Vulnerabilities in Large Language Models [40.180771969531456]
大規模言語モデル(LLM)は、様々な産業に大きな影響を与えているが、重大な欠陥、有害なコンテンツを生成する可能性に悩まされている。
我々は、不適切なコンテンツを生成する際の脆弱性を明らかにするために、LLMの新たな攻撃戦略を開発し、テストした。
論文 参考訳(メタデータ) (2025-02-23T08:09:23Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。