Fugu-MT 論文翻訳(概要): ScamAgents: How AI Agents Can Simulate Human-Level Scam Calls

論文の概要: ScamAgents: How AI Agents Can Simulate Human-Level Scam Calls

arxiv url: http://arxiv.org/abs/2508.06457v1
Date: Fri, 08 Aug 2025 17:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-11 20:39:06.315963
Title: ScamAgents: How AI Agents Can Simulate Human-Level Scam Calls
Title（参考訳）: ScamAgents:AIエージェントが人間レベルの詐欺コールをシミュレートする方法
Authors: Sanket Badhe,
Abstract要約: ScamAgentは、Large Language Models (LLMs)上に構築された自律マルチターンエージェントである。我々は,ScamAgentが対話記憶を維持し,ユーザ応答のシミュレーションに動的に適応し,会話のターンにまたがる知覚的説得戦略を採用することを示す。本研究は,多ターン型安全監査,エージェントレベル制御フレームワーク,および生成型AIによる会話の騙しを検知し,阻止する新たな手法の必要性を浮き彫りにした。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive fluency and reasoning capabilities, but their potential for misuse has raised growing concern. In this paper, we present ScamAgent, an autonomous multi-turn agent built on top of LLMs, capable of generating highly realistic scam call scripts that simulate real-world fraud scenarios. Unlike prior work focused on single-shot prompt misuse, ScamAgent maintains dialogue memory, adapts dynamically to simulated user responses, and employs deceptive persuasion strategies across conversational turns. We show that current LLM safety guardrails, including refusal mechanisms and content filters, are ineffective against such agent-based threats. Even models with strong prompt-level safeguards can be bypassed when prompts are decomposed, disguised, or delivered incrementally within an agent framework. We further demonstrate the transformation of scam scripts into lifelike voice calls using modern text-to-speech systems, completing a fully automated scam pipeline. Our findings highlight an urgent need for multi-turn safety auditing, agent-level control frameworks, and new methods to detect and disrupt conversational deception powered by generative AI.
Abstract（参考訳）: 大きな言語モデル(LLM)は、顕著な流布と推論能力を示しているが、その誤用の可能性は懸念を増している。本稿では,LLM上に構築された自律型マルチターンエージェントであるScamAgentについて述べる。シングルショットプロンプトの誤用に焦点を当てた以前の作業とは異なり、ScamAgentはダイアログメモリを維持し、シミュレーションされたユーザ応答に動的に適応し、会話の交互に偽の説得戦略を採用する。このようなエージェントによる脅威に対して,現在のLLM安全ガードレール(拒絶機構やコンテンツフィルタなど)が有効でないことを示す。強力なプロンプトレベルのセーフガードを持つモデルでさえ、プロンプトが分解されたり、偽装されたり、エージェントフレームワーク内で段階的に配信されたりすると、バイパスすることができる。さらに,最新のテキスト音声合成システムを用いて,スカムスクリプトをライフライクな音声通話に変換し,完全に自動化されたスカムパイプラインを完成させた。本研究は,多ターン型安全監査,エージェントレベル制御フレームワーク,および生成型AIによる会話の騙しを検知し,阻止する新たな手法の必要性を浮き彫りにした。

関連論文リスト

AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Personalized Attacks of Social Engineering in Multi-turn Conversations -- LLM Agents for Simulation and Detection [19.625518218365382]
ソーシャルメディアプラットフォームに対する社会工学(SE)攻撃は重大なリスクをもたらす。マルチターン会話を生成することで,SE攻撃機構をシミュレートするLLM-agentic framework,SE-VSimを提案する。本研究は,被害者の人格に関する事前知識を活用することで,ユーザに対してパーソナライズされた保護を提供するための概念実証SE-OmniGuardを提案する。
論文参考訳（メタデータ） (2025-03-18T19:14:44Z)
Red-Teaming LLM Multi-Agent Systems via Communication Attacks [10.872328358364776]
大規模言語モデルに基づくマルチエージェントシステム(LLM-MAS)は、メッセージベースのコミュニケーションを通じて高度なエージェント協調を可能にすることで、複雑な問題解決能力に革命をもたらした。エージェント・イン・ザ・ミドル(AiTM, Agent-in-the-Middle)は、エージェント間メッセージのインターセプトと操作によってLLM-MASの基本的な通信機構を利用する新たな攻撃法である。
論文参考訳（メタデータ） (2025-02-20T18:55:39Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文参考訳（メタデータ） (2024-01-08T15:01:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。