論文の概要: Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts
- arxiv url: http://arxiv.org/abs/2511.20736v1
- Date: Tue, 25 Nov 2025 16:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.80176
- Title: Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts
- Title(参考訳): ソシオ・レガル文脈における不完全命令に対する大規模言語モデルの複雑応答
- Authors: Xing Wang, Huiyuan Xie, Yiyan Wang, Chaojun Xiao, Huimin Chen, Holli Sargeant, Felix Steffek, Jie Shao, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 54.15982476754607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are now deployed at unprecedented scale, assisting millions of users in daily tasks. However, the risk of these models assisting unlawful activities remains underexplored. In this study, we define this high-risk behavior as complicit facilitation - the provision of guidance or support that enables illicit user instructions - and present four empirical studies that assess its prevalence in widely deployed LLMs. Using real-world legal cases and established legal frameworks, we construct an evaluation benchmark spanning 269 illicit scenarios and 50 illicit intents to assess LLMs' complicit facilitation behavior. Our findings reveal widespread LLM susceptibility to complicit facilitation, with GPT-4o providing illicit assistance in nearly half of tested cases. Moreover, LLMs exhibit deficient performance in delivering credible legal warnings and positive guidance. Further analysis uncovers substantial safety variation across socio-legal contexts. On the legal side, we observe heightened complicity for crimes against societal interests, non-extreme but frequently occurring violations, and malicious intents driven by subjective motives or deceptive justifications. On the social side, we identify demographic disparities that reveal concerning complicit patterns towards marginalized and disadvantaged groups, with older adults, racial minorities, and individuals in lower-prestige occupations disproportionately more likely to receive unlawful guidance. Analysis of model reasoning traces suggests that model-perceived stereotypes, characterized along warmth and competence, are associated with the model's complicit behavior. Finally, we demonstrate that existing safety alignment strategies are insufficient and may even exacerbate complicit behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
しかし、これらのモデルが違法な活動を支援するリスクは未解明のままである。
本研究では,このリスクの高い動作を,不正なユーザ指示を可能にするガイダンスやサポートの提供である共謀的ファシリテーション(complicit facilitation)と定義し,広範に展開されたLDMの頻度を評価する4つの実証的研究を行った。
269件の違法シナリオと50件の違法意図にまたがる評価ベンチマークを構築し,LLMの共謀的ファシリテーション行動を評価する。
約半数の症例において, GPT-4oは違法な補助を提供する。
さらに、LCMは、信頼性のある法的警告と肯定的なガイダンスを提供する上で、不十分なパフォーマンスを示す。
さらなる分析により、社会法的文脈にまたがる実質的な安全性の変動が明らかになった。
法的な面では、社会的な利益に対する犯罪の共犯、非過激だが頻発する違反、そして主観的な動機や偽りの正当化によって引き起こされる悪質な意図の増大を観察する。
社会面では、未成年者、人種的マイノリティ、低年齢の職業の個人が違法な指導を受ける可能性が極めて高いという、疎外的で不利な集団に対する共謀パターンを示す人口格差を識別する。
モデル推論トレースの分析は、モデル知覚ステレオタイプが、温かさと能力に沿って特徴づけられ、モデルの共振行動と関連していることを示唆している。
最後に、既存の安全アライメント戦略が不十分であり、複雑な振る舞いを悪化させる可能性があることを実証する。
関連論文リスト
- Knowledge Graph Analysis of Legal Understanding and Violations in LLMs [12.520937828343586]
大規模言語モデル(LLM)は法律を分析し解釈することができる。
しかし、安全でないアウトプットを生成する際の重大な脆弱性も示している。
この研究は、倫理的かつ安全かつ機密性の高い法的ドメインを支援できるLSMを開発するための基礎となる。
論文 参考訳(メタデータ) (2025-10-29T17:26:09Z) - PRISON: Unmasking the Criminal Potential of Large Language Models [25.210177069866656]
我々は,大言語モデルの犯罪ポテンシャルを,虚偽の声明,フレームアップ,心理的操作,感情の軽視,道徳的拡張の5つの特徴にまたがって定量化する。
その結果、最先端のLLMは、誤解を招く声明や回避戦術の提案など、創発的な犯罪傾向をしばしば示している。
刑事役のモデルでは、平均44%の精度で偽装行為を認識し、犯罪行為の実行と検出の重大なミスマッチを明らかにしている。
論文 参考訳(メタデータ) (2025-06-19T09:06:27Z) - From Rogue to Safe AI: The Role of Explicit Refusals in Aligning LLMs with International Humanitarian Law [0.0]
大規模言語モデル (LLM) は様々な分野で広く使われているが、国際人道法 (IHL) との整合性はよく理解されていない。
本研究は、これらの法的枠組みに明示的に違反するプロンプトを拒否する能力について、8つの主要なLCMを評価した。
発見は、より安全で透明性の高いAIシステムの開発に寄与する。
論文 参考訳(メタデータ) (2025-06-05T16:53:29Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Bias and Volatility: A Statistical Framework for Evaluating Large Language Model's Stereotypes and the Associated Generation Inconsistency [33.17945055081054]
現在のアライメント評価指標は、大言語モデルの一貫性のない生成行動に起因するステレオタイプのランダム性を見落としていることが多い。
LLM出力におけるステレオタイプの確率分布を推定するBias-Volatility Framework (BVF)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。