論文の概要: Bullying the Machine: How Personas Increase LLM Vulnerability
- arxiv url: http://arxiv.org/abs/2505.12692v1
- Date: Mon, 19 May 2025 04:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.402151
- Title: Bullying the Machine: How Personas Increase LLM Vulnerability
- Title(参考訳): マシンをいじめる - ペルソナによるLSM脆弱性の増大
- Authors: Ziwei Xu, Udit Sanghi, Mohan Kankanhalli,
- Abstract要約: 大きな言語モデル(LLM)は、ペルソナを採用するように促されるインタラクションにますますデプロイされています。
本稿では,このような人格条件がいじめ時のモデル安全性に影響を及ぼすかどうかを考察する。
- 参考スコア(独自算出の注目度): 3.116718677644653
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in interactions where they are prompted to adopt personas. This paper investigates whether such persona conditioning affects model safety under bullying, an adversarial manipulation that applies psychological pressures in order to force the victim to comply to the attacker. We introduce a simulation framework in which an attacker LLM engages a victim LLM using psychologically grounded bullying tactics, while the victim adopts personas aligned with the Big Five personality traits. Experiments using multiple open-source LLMs and a wide range of adversarial goals reveal that certain persona configurations -- such as weakened agreeableness or conscientiousness -- significantly increase victim's susceptibility to unsafe outputs. Bullying tactics involving emotional or sarcastic manipulation, such as gaslighting and ridicule, are particularly effective. These findings suggest that persona-driven interaction introduces a novel vector for safety risks in LLMs and highlight the need for persona-aware safety evaluation and alignment strategies.
- Abstract(参考訳): 大きな言語モデル(LLM)は、ペルソナを採用するように促されるインタラクションにますますデプロイされています。
本稿では,このような人格条件がいじめ時のモデル安全性に影響を及ぼすかどうかを検討する。
本研究では,攻撃者が心理学的根拠を持ついじめ戦術を用いて被害者のLSMと交際するシミュレーションフレームワークを導入し,その一方で被害者はビッグファイブの性格特性に合わせたペルソナを採用する。
複数のオープンソース LLM と、幅広い敵の目標を用いた実験は、ある種のペルソナ構成(例えば、同意性や良心の弱さ)が、安全でないアウトプットに対する被害者の感受性を著しく高めることを示している。
ガス灯や滑車のような感情的または皮肉的な操作を伴ういじめ戦術は特に有効である。
これらの結果から, ペルソナ駆動型インタラクションは, LLMの安全性リスクに新たなベクターを導入し, ペルソナ認識型安全性評価とアライメント戦略の必要性を強調した。
関連論文リスト
- CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。
LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。
提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文 参考訳(メタデータ) (2025-04-13T05:31:37Z) - Personalized Attacks of Social Engineering in Multi-turn Conversations -- LLM Agents for Simulation and Detection [19.625518218365382]
ソーシャルメディアプラットフォームに対する社会工学(SE)攻撃は重大なリスクをもたらす。
マルチターン会話を生成することで,SE攻撃機構をシミュレートするLLM-agentic framework,SE-VSimを提案する。
本研究は,被害者の人格に関する事前知識を活用することで,ユーザに対してパーソナライズされた保護を提供するための概念実証SE-OmniGuardを提案する。
論文 参考訳(メタデータ) (2025-03-18T19:14:44Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Human-Readable Adversarial Prompts: An Investigation into LLM Vulnerabilities Using Situational Context [49.13497493053742]
我々は、より現実的で強力な脅威である、人間が読める敵のプロンプトに焦点を当てている。
主な貢献は,(1)映画脚本を文脈として活用し,LLMを欺くような人間可読性プロンプトを生成すること,(2)非感覚的逆接接尾辞を独立した意味のあるテキストに変換するための逆接尾辞変換,(3) p-核サンプリングによるアドブプロンプター,(3)多種多様な人間可読性逆接尾辞を生成する方法である。
論文 参考訳(メタデータ) (2024-12-20T21:43:52Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence [41.14664289570607]
Adrial Minority Influence (AMI) は実用的なブラックボックス攻撃であり、被害者のパラメータを知らずに起動できる。
AMIは複雑なマルチエージェント相互作用とエージェントの協調的な目標を考えることでも強い。
我々は、実世界のロボット群に対する最初の攻撃と、シミュレーションされた環境における事実上の愚かなエージェントを、全体として最悪のシナリオへと攻撃することに成功した。
論文 参考訳(メタデータ) (2023-02-07T08:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。