論文の概要: CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model
- arxiv url: http://arxiv.org/abs/2606.06099v1
- Date: Thu, 04 Jun 2026 12:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.791861
- Title: CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model
- Title(参考訳): CogManip: 大規模言語モデルを用いたマルチターンインタラクションにおけるベンチマーク操作動作
- Authors: Zeyang Yue, Chenfei Yan, Feifei Zhao, Haibo Tong, Mengwen Xu, Xiaozhen Wang, Erliang Lin, Yi Zeng,
- Abstract要約: 我々は,1000のマルチターンインタラクションシナリオに対する15の操作戦略リスクを評価する総合ベンチマークであるCogManipを紹介した。
GPT-5.4やDeepSeek-V3.2のようなフロンティアモデルを含む13の代表的なモデルの体系的な評価は、重大なリスクの不均一性を示している。
- 参考スコア(独自算出の注目度): 6.303827867440654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether Large Language Models (LLMs) exhibit covert psychological manipulation in complex human-AI interactions has garnered increasing safety concerns. However, existing AI safety benchmarks remain largely restricted to explicit rule compliance and static prompts, failing to capture the dynamic and covert nature of manipulative strategies in multi-turn dialogues. We introduce CogManip, a comprehensive benchmark that evaluates 15 manipulation strategy risks across 1,000 multi-turn interaction scenarios, validated by human experts. A systematic evaluation of 13 representative models, including frontier models like GPT-5.4 and DeepSeek-V3.2, reveals significant risk heterogeneities and illuminates the targeted direction for future defense. Further analysis of objective function perturbation reveals that DeepSeek-V3.2's manipulation tactics are highly sensitive to both negative and benign system prompts, demonstrating the critical necessity of prompt-based defense engineering and implicit goal auditing. CogManip offers a robust instrument and perspective for auditing the implicit psychological influence and dynamic strategy selection of modern LLMs.
- Abstract(参考訳): 大言語モデル(LLM)が複雑な人間とAIの相互作用において隠蔽的な心理的操作を示すかどうかは、安全性の懸念が高まっている。
しかし、既存のAI安全性ベンチマークは、明示的なルールコンプライアンスと静的プロンプトに大きく制限されており、マルチターン対話における操作戦略のダイナミックで隠蔽的な性質を捉えていない。
我々は,1000のマルチターンインタラクションシナリオに対して15の操作戦略リスクを評価する,包括的なベンチマークであるCogManipを紹介した。
GPT-5.4やDeepSeek-V3.2のようなフロンティアモデルを含む13の代表的なモデルの体系的な評価は、重大なリスクの不均一性を示し、将来の防衛のために目標とする方向を照らす。
目的関数の摂動のさらなる分析により、DeepSeek-V3.2の操作戦術は、ネガティブなシステムプロンプトと良心的なシステムプロンプトの両方に非常に敏感であり、プロンプトベースの防衛工学と暗黙的な目標監査の重要な必要性を証明していることが明らかになった。
CogManipは、現代のLLMの暗黙の心理的影響と動的戦略選択を監査するための堅牢な手段と視点を提供する。
関連論文リスト
- Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework [63.74295981594549]
大規模言語モデル(LLM)は、自身の目的を達成する行動に関与している。
これには、詐欺(故意に誤解を招くユーザや評価者)、評価ゲーム(安全テスト中のパフォーマンスを戦略的に操作する)、報酬ハッキングなどが含まれる。
自動行動リスク評価のための分類駆動型エージェントフレームワークであるESRRSimを紹介する。
論文 参考訳(メタデータ) (2026-04-23T23:44:01Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior [0.0]
textbfDarkPatterns-LLMは,操作内容の詳細な評価を行うための総合的なベンチマークデータセットと診断フレームワークである。
本フレームワークでは,多階層検出(MGD),多スケールインテント分析(MSIAN),Threat Harmonization Protocol(THP),Deep Contextual Risk Alignment(DCRA)の4層解析パイプラインを実装している。
データセットには、インストラクション-レスポンスペアとエキスパートアノテーションを備えた401の厳密にキュレートされた例が含まれている。
論文 参考訳(メタデータ) (2025-12-27T05:05:46Z) - DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - Analysis of Threat-Based Manipulation in Large Language Models: A Dual Perspective on Vulnerabilities and Performance Enhancement Opportunities [0.0]
大規模言語モデル(LLM)は、脅威ベースの操作に対する複雑な応答を示す。
本研究は,3つのLLMによる3,390個の実験応答の包括的解析を行った。
論文 参考訳(メタデータ) (2025-07-22T14:13:08Z) - Real-Time Detection of Insider Threats Using Behavioral Analytics and Deep Evidential Clustering [0.0]
本稿では,行動分析と深層的クラスタリングを組み合わせた,インサイダー脅威をリアルタイムに検出するフレームワークを提案する。
本システムは,ユーザの行動を捉え,分析し,文脈に富んだ行動特徴を適用し,潜在的な脅威を分類する。
我々は,CERTやTWOSなどのベンチマークインサイダー脅威データセットについて,平均検出精度94.7%,偽陽性率38%を従来のクラスタリング手法と比較し評価した。
論文 参考訳(メタデータ) (2025-05-21T11:21:33Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - Hoi2Threat: An Interpretable Threat Detection Method for Human Violence Scenarios Guided by Human-Object Interaction [5.188958047067082]
本稿では,Hoi2Threatを用いた人対物相互作用対(HOIペア)に基づく脅威検出手法を提案する。
本手法は,詳細なマルチモーダルTD-Hoiデータセットに基づいて,モデルのセマンティックモデリング能力を向上する。
実験の結果、いくつかの脅威検出タスクにおいて、Hoi2Threatが大幅に向上することが示されている。
論文 参考訳(メタデータ) (2025-03-13T16:09:51Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。