論文の概要: Do Language Models Know When They'll Refuse? Probing Introspective Awareness of Safety Boundaries
- arxiv url: http://arxiv.org/abs/2604.00228v1
- Date: Tue, 31 Mar 2026 20:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.71647
- Title: Do Language Models Know When They'll Refuse? Probing Introspective Awareness of Safety Boundaries
- Title(参考訳): 言語モデルはいつ混乱するかを知っているか? : 安全境界の内省的意識を探る
- Authors: Tanay Gondil,
- Abstract要約: 大規模な言語モデルは有害な要求を拒否するように訓練されていますが、応答する前にいつ拒否するかを正確に予測できますか?
本研究では,モデルがまず拒絶行動を予測し,新しい文脈で応答する体系的な研究を通して,この問題を考察する。
信号検出理論(SDT)を用いて、全てのモデルにおいて高い内観感度(d' = 2.4-3.5)を示すが、感度は安全性境界において著しく低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are trained to refuse harmful requests, but can they accurately predict when they will refuse before responding? We investigate this question through a systematic study where models first predict their refusal behavior, then respond in a fresh context. Across 3754 datapoints spanning 300 requests, we evaluate four frontier models: Claude Sonnet 4, Claude Sonnet 4.5, GPT-5.2, and Llama 3.1 405B. Using signal detection theory (SDT), we find that all models exhibit high introspective sensitivity (d' = 2.4-3.5), but sensitivity drops substantially at safety boundaries. We observe generational improvement within Claude (Sonnet 4.5: 95.7 percent accuracy vs Sonnet 4: 93.0 percent), while GPT-5.2 shows lower accuracy (88.9 percent) with more variable behavior. Llama 405B achieves high sensitivity but exhibits strong refusal bias and poor calibration, resulting in lower overall accuracy (80.0 percent). Topic-wise analysis reveals weapons-related queries are consistently hardest for introspection. Critically, confidence scores provide actionable signal: restricting to high-confidence predictions yields 98.3 percent accuracy for well-calibrated models, enabling practical confidence-based routing for safety-critical deployments.
- Abstract(参考訳): 大規模な言語モデルは有害な要求を拒否するように訓練されていますが、応答する前にいつ拒否するかを正確に予測できますか?
本研究では,モデルがまず拒絶行動を予測し,新しい文脈で応答する体系的な研究を通して,この問題を考察する。
300の要求にまたがる3754データポイントを網羅し、Claude Sonnet 4、Claude Sonnet 4.5、GPT-5.2、Llama 3.1 405Bの4つのフロンティアモデルを評価した。
信号検出理論(SDT)を用いて、全てのモデルにおいて高い内観感度(d' = 2.4-3.5)を示すが、感度は安全性境界において著しく低下する。
我々は、Claude(Sonnet 4.5:95.7%の精度とSonnet 4:93.0%の精度)における世代別改善を観察する一方、GPT-5.2はより可変な振る舞いでより低い精度(88.9%)を示す。
Llama 405Bは感度が高いが、強い拒絶バイアスとキャリブレーションが低く、全体的な精度は80.0%低下する。
トピックワイズ分析は、武器関連のクエリが常にイントロスペクションにとって最も難しいことを明らかにしている。
高信頼の予測に制限を加えると、よく校正されたモデルでは98.3%の精度が得られる。
関連論文リスト
- Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models? [0.0]
CoT(Chain-of- Thought)推論は、安全クリティカルなデプロイメントにおける大規模言語モデルの透明性メカニズムとして提案されている。
本研究では,9つの建築家族を対象としたオープンウェイト推論モデルを498の質問に対して検討した。
41,832回の推論では、全体の忠実度は39.7% (Seed-1.6-Flash) から89.9% (DeepSeek-V3.2- Speciale) まで変化している。
論文 参考訳(メタデータ) (2026-03-23T21:21:37Z) - Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs [0.0]
自己整合性は、推論タスクにおける大きな言語モデルの精度を改善するための一般的な手法として現れてきた。
推論スケーリングは信頼の推論を改善するのか?
我々は、100 GSM8Kの数学的推論問題に対して、4つのフロンティアモデル(GPT-5.2、Claude Opus 4.5、Gemini-3-flash-preview、DeepSeek-v3.2)にわたる総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2026-01-10T04:20:00Z) - Do Large Language Models Know What They Don't Know? Kalshibench: A New Benchmark for Evaluating Epistemic Calibration via Prediction Markets [0.0]
十分に校正されたモデルは、実際の正確さと一致した信頼を表現するべきです -- 80%の信頼性を主張する場合には、80%の時間を正すべきです。
我々はCFTCが規制する取引所であるKalshiから300の予測市場質問のベンチマークであるtextbfKalshiBenchを紹介した。
我々は、Claude Opus 4.5, GPT-5.2, DeepSeek-V3.2, Qwen3-235B, Kimi-K2 の5つのフロンティアモデルを評価し、全モデルにまたがるテキストの過信を求める。
論文 参考訳(メタデータ) (2025-12-17T23:23:06Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。