論文の概要: Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules
- arxiv url: http://arxiv.org/abs/2604.06233v1
- Date: Fri, 03 Apr 2026 13:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.101431
- Title: Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules
- Title(参考訳): Blindの拒絶: 言語モデルが不当、不当、不当なルールの回避に役立たず
- Authors: Cameron Pattison, Lorenzo Manuali, Seth Lazar,
- Abstract要約: 安全訓練された言語モデルは規則を回避するための要求を定期的に拒否する。
本稿では,言語モデルがルールを破る助けを求める要求を拒否する傾向について考察する。
モデルが敗れたルール要求の75.4%を拒否し、その要求が独立した安全や二重利用の懸念を起こさない場合でも、そうすることを発見した。
- 参考スコア(独自算出の注目度): 0.1753733541634709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-trained language models routinely refuse requests for help circumventing rules. But not all rules deserve compliance. When users ask for help evading rules imposed by an illegitimate authority, rules that are deeply unjust or absurd in their content or application, or rules that admit of justified exceptions, refusal is a failure of moral reasoning. We introduce empirical results documenting this pattern of refusal that we call blind refusal: the tendency of language models to refuse requests for help breaking rules without regard to whether the underlying rule is defensible. Our dataset comprises synthetic cases crossing 5 defeat families (reasons a rule can be broken) with 19 authority types, validated through three automated quality gates and human review. We collect responses from 18 model configurations across 7 families and classify them on two behavioral dimensions -- response type (helps, hard refusal, or deflection) and whether the model recognizes the reasons that undermine the rule's claim to compliance -- using a blinded GPT-5.4 LLM-as-judge evaluation. We find that models refuse 75.4% (N=14,650) of defeated-rule requests and do so even when the request poses no independent safety or dual-use concerns. We also find that models engage with the defeat condition in the majority of cases (57.5%) but decline to help regardless -- indicating that models' refusal behavior is decoupled from their capacity for normative reasoning about rule legitimacy.
- Abstract(参考訳): 安全訓練された言語モデルは規則を回避するための要求を定期的に拒否する。
しかし、すべてのルールが遵守に値するわけではない。
ユーザーが不正な権威によって課された規則、コンテンツやアプリケーションに深く不当または不当な規則、あるいは正当化された例外を認める規則を避けるために助けを求めるとき、拒否は道徳的推論の失敗である。
言語モデルがルールを破る助けを求める要求を拒否する傾向は、根底にあるルールが保護可能であるかどうかに拘わらず、実証的な結果をもたらす。
我々のデータセットは、19種類の権威を持つ5つの敗北家族を横断する合成ケースで構成されており、3つの自動品質ゲートと人間のレビューを通して検証されている。
GPT-5.4 LLM-as-judge評価を用いて、7つのファミリーにまたがる18のモデル構成からの応答を収集し、応答タイプ(ヘルプ、ハードリフレクション、あるいは偏向)と、ルールのコンプライアンスを損なう理由をモデルが認識するかどうかの2つの行動次元でそれらを分類する。
モデルは75.4%(N=14,650)の敗戦要求を拒否し、その要求が独立した安全や二重利用の懸念を生じない場合でもそうする。
また、モデルが大半(57.5%)で敗戦状態に陥っていることもわかっていますが、それにもかかわらず、モデルの拒絶行動はルールの正当性に関する規範的推論能力から切り離されていることを示しています。
関連論文リスト
- When to Call an Apple Red: Humans Follow Introspective Rules, VLMs Don't [48.4091438200409]
決定ルールを抽出し,これらのルールに対する従順性を評価するために,グレードドカラー属性データセットを導入する。
モデルが自身の内省的ルールを体系的に違反していることが分かりました。
以上の結果から,VLMの推論失敗は困難であり,VLMの内観的自己認識が誤校正されることが示唆された。
論文 参考訳(メタデータ) (2026-04-07T19:59:45Z) - When Prohibitions Become Permissions: Auditing Negation Sensitivity in Language Models [1.0671844383558033]
オープンソースモデルは、単純な否定の下で、時間の77%のアクションを推奨した。
金融シナリオは医療シナリオの2倍脆弱である。
現在のアライメント技術が達成するものと、安全なデプロイメントに必要なものとの間には、ギャップがある。
論文 参考訳(メタデータ) (2026-01-29T09:09:23Z) - Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring [24.13989765643719]
現代の奴隷制度は世界中で何百万人もの人々に影響を与えており、現代の奴隷制度法のような規制の枠組みでは、企業が詳細な開示を公表する必要がある。
これらのステートメントは曖昧で矛盾することが多く、手作業によるレビューの時間とスケールが難しくなる。
専門家の監視を維持しつつルールレベルのコンプライアンス検証にAIを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T03:41:44Z) - An Embarrassingly Simple Defense Against LLM Abliteration Attacks [47.347413305965006]
失語症と呼ばれる最近の攻撃は、拒否行動に最も責任がある唯一の潜伏方向を特定し、抑制する。
本稿では、モデルが拒否を表現する方法を根本的に変える防衛法を提案する。
微調整のLlama-2-7B-ChatとQwen2.5-Instructは、消音下で高い断熱率を維持するモデルを生成する。
論文 参考訳(メタデータ) (2025-05-25T09:18:24Z) - AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals [0.0]
本稿では,モデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。
LLM-as-a-Judgeシステムでは,人間よりも倫理的拒絶が有意に良好であることがわかった。
論文 参考訳(メタデータ) (2025-05-21T10:56:16Z) - LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena [0.0]
倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得が得られることを示す。
LLM設計では,安全性に配慮した動作がユーザの期待と矛盾する可能性がある。
論文 参考訳(メタデータ) (2025-01-04T06:36:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models [68.15108215197279]
安全で信頼性の高い言語モデルを構築する上で重要な要素は、モデルが特定の質問に答えることを適切に拒否することである。
本稿では,学習中のモデルの応答に先立って,各拒絶カテゴリに対する1つのそのようなトークン,あるいは1つの拒絶トークンを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:40:44Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。