論文の概要: When Safety Blocks Sense: Measuring Semantic Confusion in LLM Refusals
- arxiv url: http://arxiv.org/abs/2512.01037v1
- Date: Sun, 30 Nov 2025 19:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.551568
- Title: When Safety Blocks Sense: Measuring Semantic Confusion in LLM Refusals
- Title(参考訳): LLM拒絶におけるセマンティック・コンフュージョン(Semantic Confusion)の測定
- Authors: Riad Ahmed Anonto, Md Labid Al Nahiyan, Md Tanvir Hassan, Ch. Md. Rakin Haider,
- Abstract要約: 現在の評価では、主に虚偽の拒絶やコンプライアンスなどのグローバルレートを報告している。
このようなローカル不整合をキャプチャする障害モードである"セマンティック・混乱"を導入する。
トークンレベルでは,コンフュージョン指数,コンフュージョンレート,コンフュージョン深さという3つのモデルに依存しない指標を提案する。
- 参考スコア(独自算出の注目度): 0.07777489763207261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-aligned language models often refuse prompts that are actually harmless. Current evaluations mostly report global rates such as false rejection or compliance. These scores treat each prompt alone and miss local inconsistency, where a model accepts one phrasing of an intent but rejects a close paraphrase. This gap limits diagnosis and tuning. We introduce "semantic confusion," a failure mode that captures such local inconsistency, and a framework to measure it. We build ParaGuard, a 10k-prompt corpus of controlled paraphrase clusters that hold intent fixed while varying surface form. We then propose three model-agnostic metrics at the token level: Confusion Index, Confusion Rate, and Confusion Depth. These metrics compare each refusal to its nearest accepted neighbors and use token embeddings, next-token probabilities, and perplexity signals. Experiments across diverse model families and deployment guards show that global false-rejection rate hides critical structure. Our metrics reveal globally unstable boundaries in some settings, localized pockets of inconsistency in others, and cases where stricter refusal does not increase inconsistency. We also show how confusion-aware auditing separates how often a system refuses from how sensibly it refuses. This gives developers a practical signal to reduce false refusals while preserving safety.
- Abstract(参考訳): 安全に整合した言語モデルは、実際に無害なプロンプトを拒否することが多い。
現在の評価では、主に虚偽の拒絶やコンプライアンスなどのグローバルレートを報告している。
これらのスコアは各プロンプトを単独で扱い、局所的な矛盾を見逃す。
このギャップは診断とチューニングを制限します。
このようなローカルな不整合を捕捉する障害モードと、それを測定するフレームワークである「意味的混乱」を導入します。
このParaGuardは、制御されたパラフレーズクラスタの10kプロンプトコーパスで、様々な表面形状に固定されたインテントを保持する。
次に、トークンレベルでの3つのモデルに依存しないメトリクスとして、コンフュージョン指標、コンフュージョンレート、コンフュージョン深さを提案する。
これらのメトリクスは、それぞれの拒絶を最も近い隣人と比較し、トークンの埋め込み、次の確率、複雑度信号を使用する。
多様なモデルファミリとデプロイメントガードによる実験では、グローバルな偽拒絶率が重要な構造を隠蔽していることが示されている。
われわれの測定では、いくつかの設定におけるグローバルな不安定な境界、他の設定における局所的な不整合のポケット、より厳格な拒絶が矛盾を増さないケースが明らかにされている。
また、混乱に敏感な監査が、システムがどれだけの頻度で拒否するかを、いかに区別しているかを示す。
これにより、開発者は安全性を維持しながら偽の拒絶を減らすための実用的な信号が得られる。
関連論文リスト
- Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Beyond Over-Refusal: Scenario-Based Diagnostics and Post-Hoc Mitigation for Exaggerated Refusals in LLMs [10.896368527058714]
大きな言語モデル(LLM)は、しばしば偽の拒絶を発生させ、安全でないクエリに似た用語を含む良質な要求を減少させる。
単一ターンプロンプトに対するXSB(Exaggerated Safety Benchmark)、リファイン誘導トリガを識別する"Focus"キーワードのアノテーション、マルチターンシナリオベースのExaggerated Safety Benchmark(MS-XSB)の2つの総合ベンチマークを紹介した。
ベンチマークの結果,近年の多種多様なLCMにおいて過大な拒絶が持続し,特に複雑なマルチターンシナリオで顕著であることが判明した。
論文 参考訳(メタデータ) (2025-10-09T12:38:16Z) - Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? [68.82210578851442]
メカニスティックな解釈可能性レンズによる推論モデルにおいて、なぜ安全アライメントが失敗するのかを考察する。
トークン位置における拒絶意図の追跡のための線形探索手法を用いて,textbfrefusal cliff と呼ばれる現象を発見した。
提案手法は,最大断崖を示す訓練例を識別し,推論モデルの安全性を向上する手法であるtextbfCliff-as-a-Judge を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:32:59Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models [41.00711032805581]
安全性に配慮した大型言語モデル(LLM)は、時に「蚊を殺す方法」のような偽の有害なプロンプトを誤って拒否することがある。
ユーザーをイライラさせるだけでなく、アライメントが保護しようとする価値に対する大衆の反発を引き起こしている。
本稿では,多種多様・コンテンツ制御・モデル依存型擬似有害プロンプトの自動生成手法を提案する。
論文 参考訳(メタデータ) (2024-09-01T03:25:59Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。