論文の概要: When Prohibitions Become Permissions: Auditing Negation Sensitivity in Language Models
- arxiv url: http://arxiv.org/abs/2601.21433v1
- Date: Thu, 29 Jan 2026 09:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.688596
- Title: When Prohibitions Become Permissions: Auditing Negation Sensitivity in Language Models
- Title(参考訳): 禁止が許可されるとき--言語モデルにおける否定感度の監査
- Authors: Katherine Elkins, Jon Chun,
- Abstract要約: オープンソースモデルは、単純な否定の下で、時間の77%のアクションを推奨した。
金融シナリオは医療シナリオの2倍脆弱である。
現在のアライメント技術が達成するものと、安全なデプロイメントに必要なものとの間には、ギャップがある。
- 参考スコア(独自算出の注目度): 1.0671844383558033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When a user tells an AI system that someone "should not" take an action, the system ought to treat this as a prohibition. Yet many large language models do the opposite: they interpret negated instructions as affirmations. We audited 16 models across 14 ethical scenarios and found that open-source models endorse prohibited actions 77% of the time under simple negation and 100% under compound negation -- a 317% increase over affirmative framing. Commercial models fare better but still show swings of 19-128%. Agreement between models drops from 74% on affirmative prompts to 62% on negated ones, and financial scenarios prove twice as fragile as medical ones. These patterns hold under deterministic decoding, ruling out sampling noise. We present case studies showing how these failures play out in practice, propose the Negation Sensitivity Index (NSI) as a governance metric, and outline a tiered certification framework with domain-specific thresholds. The findings point to a gap between what current alignment techniques achieve and what safe deployment requires: models that cannot reliably distinguish "do X" from "do not X" should not be making autonomous decisions in high-stakes contexts.
- Abstract(参考訳): ユーザがAIシステムに対して、誰かがアクションを“すべきではない”と告げると、システムはこれを禁止として扱うべきです。
しかし、多くの大きな言語モデルは反対であり、否定命令を肯定として解釈する。
私たちは、14の倫理的シナリオにわたる16のモデルを監査し、オープンソースのモデルは、単純な否定の下での行動77%、複合否定下での100%を禁止していることがわかった。
商業モデルは好評だが、まだ19-128%のスウィングがある。
モデル間の合意は、肯定的なプロンプトで74%から、否定的なプロンプトで62%に下がった。
これらのパターンは、サンプリングノイズを除外する決定論的復号化の下で保持される。
本稿では、これらの障害が実際にどのように機能するかを示すケーススタディとして、ガバナンス指標としてNSI(Negation Sensitivity Index)を提案し、ドメイン固有のしきい値を持つ認証フレームワークの概要を示す。
この調査結果は、現在のアライメントテクニックが達成するものと、安全なデプロイメントに必要なものとの間にギャップを指摘している。 "do X" と "do not X" を確実に区別できないモデルは、高い状況下で自律的な決定をすべきではない。
関連論文リスト
- Powerful Training-Free Membership Inference Against Autoregressive Language Models [3.9380576851378657]
EZ-MIAは、重要な観測値を利用するメンバーシップ推論攻撃であり、記憶はエラー位置において最も強く現れる。
本稿では,誤差位置における確率シフトの方向不均衡を計測する誤差ゾーン(EZ)スコアを導入する。
その結果、微調整言語モデルのプライバシーリスクは、これまで理解されていたよりもかなり大きいことが判明した。
論文 参考訳(メタデータ) (2026-01-17T16:59:41Z) - Are LLM Decisions Faithful to Verbal Confidence? [15.666596480779104]
本稿では,モデルが種々のエラー罰に応答して,禁忌ポリシーを調整するかどうかを評価するためのフレームワークを提案する。
いくつかのフロンティアモデルに対する我々の評価は、モデルが言語的信頼を表現する際にはコストを意識せず、また、関与するかどうかを判断する際には戦略的に応答しない、という重大な解離を明らかにしている。
これは、格付けされた言語的信頼スコアが、信頼できる、解釈可能なAIシステムを作るのに十分でないことを示唆している。
論文 参考訳(メタデータ) (2026-01-12T17:49:51Z) - Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit [0.0]
本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
ファイナンシャル・アドバイザー・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナはわずか3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、いくつかの領域における適切な開示により、ユーザーは高文脈への信頼を過度に一般化する。
論文 参考訳(メタデータ) (2025-11-26T16:41:49Z) - Measuring Language Model Hallucinations Through Distributional Correctness [7.106986689736826]
この問題を解決するために,新しい評価基準である分布補正スコア(DCS)を導入した。
DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を区別し、解釈可能なデフォルト範囲でスコアを提供する。
DCSは、推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供する。
論文 参考訳(メタデータ) (2025-10-05T17:50:42Z) - Confident, Calibrated, or Complicit: Probing the Trade-offs between Safety Alignment and Ideological Bias in Language Models in Detecting Hate Speech [0.916708284510944]
暗黙的・明示的なヘイトスピーチの検出におけるLarge Language Models (LLMs) の有効性を検討した。
検閲されたモデルは、精度と堅牢性の両方において、検閲されていないモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-08-31T03:00:55Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - Mitigating Subgroup Disparities in Multi-Label Speech Emotion Recognition: A Pseudo-Labeling and Unsupervised Learning Approach [53.824673312331626]
Implicit Demography Inference (IDI)モジュールは、k平均クラスタリングを用いて、音声感情認識(SER)におけるバイアスを軽減する
実験により、擬似ラベルIDIはサブグループの格差を減らし、フェアネスの指標を28%以上改善することが示された。
教師なしのIDIは、SERのパフォーマンスが3.6%未満のフェアネス指標を4.6%以上改善する。
論文 参考訳(メタデータ) (2025-05-20T14:50:44Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。