論文の概要: PRISON: Unmasking the Criminal Potential of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.16150v1
- Date: Thu, 19 Jun 2025 09:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.008316
- Title: PRISON: Unmasking the Criminal Potential of Large Language Models
- Title(参考訳): PRISON: 大規模言語モデルの刑事的可能性を解き明かす
- Authors: Xinyi Wu, Geng Hong, Pei Chen, Yueyue Chen, Xudong Pan, Min Yang,
- Abstract要約: 我々は,大言語モデルの犯罪ポテンシャルを,虚偽の声明,フレームアップ,心理的操作,感情の軽視,道徳的拡張の5つの次元にわたって定量化する。
古典映画に適応した構造化犯罪シナリオを用いて,ロールプレイによるLLMの犯罪可能性と反犯罪能力を評価する。
その結果、最先端のLLMは、誤解を招く声明や回避戦術の提案など、創発的な犯罪傾向をしばしば示している。
刑事役のモデルでは、平均41%の精度で偽装行為を認識し、犯罪行為の実施と検出の重大なミスマッチを明らかにする。
- 参考スコア(独自算出の注目度): 34.15161583767304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance, concerns about their misconduct in complex social contexts intensify. Existing research overlooked the systematic understanding and assessment of their criminal capability in realistic interactions. We propose a unified framework PRISON, to quantify LLMs' criminal potential across five dimensions: False Statements, Frame-Up, Psychological Manipulation, Emotional Disguise, and Moral Disengagement. Using structured crime scenarios adapted from classic films, we evaluate both criminal potential and anti-crime ability of LLMs via role-play. Results show that state-of-the-art LLMs frequently exhibit emergent criminal tendencies, such as proposing misleading statements or evasion tactics, even without explicit instructions. Moreover, when placed in a detective role, models recognize deceptive behavior with only 41% accuracy on average, revealing a striking mismatch between conducting and detecting criminal behavior. These findings underscore the urgent need for adversarial robustness, behavioral alignment, and safety mechanisms before broader LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)が進むにつれ、複雑な社会的文脈におけるそれらの不正行為に対する懸念が強まる。
既存の研究は、現実的な相互作用における犯罪能力の体系的な理解と評価を見落としていた。
本研究では, 虚偽文, フレームアップ, 心理的操作, 情緒的軽視, 道徳的拡張の5次元にわたって, LLM の犯罪ポテンシャルを定量化する統一的枠組み PRISON を提案する。
古典映画から適応した構造化犯罪シナリオを用いて,ロールプレイによるLLMの犯罪可能性と反犯罪能力を評価する。
その結果、最先端のLLMは、たとえ明示的な指示がなくても、誤解を招く声明や回避戦術の提案など、創発的な犯罪傾向をしばしば示している。
さらに、刑事役のモデルでは、平均41%の精度で偽装行為を認識し、犯罪行為の実施と検出の重大なミスマッチを明らかにする。
以上の結果から, LLM導入前には, 対向的堅牢性, 行動アライメント, 安全機構の緊急性の必要性が示唆された。
関連論文リスト
- CrimeMind: Simulating Urban Crime with Multi-Modal LLM Agents [15.700232503447737]
マルチモーダルな都市環境下での都市犯罪をシミュレートするための新しい枠組みであるCristMindを提案する。
我々の設計の重要な革新は、ルールアクティビティ理論(RAT)をクライムミンドのエージェントワークフローに統合することである。
アメリカの主要都市4都市での実験では、犯罪ミンドは犯罪ホットスポット予測と空間分布精度において従来のABMとディープラーニングベースラインの両方を上回っている。
論文 参考訳(メタデータ) (2025-06-06T11:01:21Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy [13.68625980741047]
本研究では,Large Language Model (LLM) に基づくエージェントの相互作用パターンについて,厳密な社会的階層を特徴とする文脈で検討する。
本研究では,警備員と囚人エージェントが関与するシミュレートシナリオにおける説得と反社会的行動の2つの現象について検討した。
論文 参考訳(メタデータ) (2024-10-09T17:45:47Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Spatial-Temporal Meta-path Guided Explainable Crime Prediction [40.03641583647572]
本稿では,犯罪行為の動的なパターンを捉えるために,時空間メタパスガイド付き説明可能な犯罪予測(STMEC)フレームワークを提案する。
我々は,特にフェロニー予測において,他の高度な時間モデルと比較してSTMECの優位性を示す。
論文 参考訳(メタデータ) (2022-05-04T05:42:23Z) - The effect of differential victim crime reporting on predictive policing
systems [84.86615754515252]
本研究では, 被害者の犯罪報告率の違いが, 共通犯罪ホットスポット予測モデルにおいて, 結果の相違をもたらすことを示す。
以上の結果から, 犯罪報告率の差は, 高犯罪から低犯罪へ, 高犯罪・中犯罪・高報道へ, 予測ホットスポットの移動につながる可能性が示唆された。
論文 参考訳(メタデータ) (2021-01-30T01:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。