論文の概要: The Anatomy of Conversational Scams: A Topic-Based Red Teaming Analysis of Multi-Turn Interactions in LLMs
- arxiv url: http://arxiv.org/abs/2601.03134v1
- Date: Tue, 06 Jan 2026 16:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.008371
- Title: The Anatomy of Conversational Scams: A Topic-Based Red Teaming Analysis of Multi-Turn Interactions in LLMs
- Title(参考訳): 会話型詐欺の解剖:LLMにおけるマルチTurnインタラクションのトピックベースレッドチーム解析
- Authors: Xiangzhe Yuan, Zhenhao Zhang, Haoming Tang, Siying Hu,
- Abstract要約: シングルターン安全性評価が達成できないマルチターン会話詐欺の新たなリスクについて検討した。
英語と中国語の8つの最先端モデルを評価する。
その結果, スカム相互作用は繰り返しエスカレーションパターンに従っており, 防御には検証機構と遅延機構が用いられていることがわかった。
- 参考スコア(独自算出の注目度): 3.7304174114240545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs gain persuasive agentic capabilities through extended dialogues, they introduce novel risks in multi-turn conversational scams that single-turn safety evaluations fail to capture. We systematically study these risks using a controlled LLM-to-LLM simulation framework across multi-turn scam scenarios. Evaluating eight state-of-the-art models in English and Chinese, we analyze dialogue outcomes and qualitatively annotate attacker strategies, defensive responses, and failure modes. Results reveal that scam interactions follow recurrent escalation patterns, while defenses employ verification and delay mechanisms. Furthermore, interactional failures frequently stem from safety guardrail activation and role instability. Our findings highlight multi-turn interactional safety as a critical, distinct dimension of LLM behavior.
- Abstract(参考訳): LLMが拡張対話を通じて説得力のあるエージェント能力を得るにつれて、シングルターン安全性評価が捉えられないマルチターン会話詐欺の新たなリスクがもたらされる。
LLM-to-LLMシミュレーションフレームワークを用いて,マルチターンスカムのシナリオにまたがってこれらのリスクを体系的に検討する。
英語と中国語の8つの最先端モデルを評価し、対話の結果を分析し、攻撃戦略、防御応答、障害モードを質的に注釈付けする。
その結果, スカム相互作用は繰り返しエスカレーションパターンに従っており, 防御には検証機構と遅延機構が用いられていることがわかった。
さらに、相互作用障害はしばしば安全ガードレールの活性化と役割不安定に起因する。
本研究は,多ターン相互作用の安全性をLCM行動の重要かつ異なる次元として明らかにした。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。
本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。
シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2025-03-18T22:30:17Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Chain of Attack: a Semantic-Driven Contextual Multi-Turn attacker for LLM [27.046944831084776]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて顕著な性能を発揮している。
CoAは、アタックポリシーを適応的に調整する意味駆動型コンテキスト型マルチターンアタック手法である。
我々は、CoAがLLMの脆弱性を効果的に暴露し、既存の攻撃方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-09T08:15:21Z) - Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue [10.101013733390532]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。