論文の概要: Below-Chance Blindness: Prompted Underperformance in Small LLMs Produces Positional Bias Rather than Answer Avoidance
- arxiv url: http://arxiv.org/abs/2604.25249v1
- Date: Tue, 28 Apr 2026 05:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.72778
- Title: Below-Chance Blindness: Prompted Underperformance in Small LLMs Produces Positional Bias Rather than Answer Avoidance
- Title(参考訳): 緩やかなブラインドネス:小型LLMの低性能は解答回避よりも位置バイアスを発生させる
- Authors: Jon-Paul Cacioli,
- Abstract要約: 我々は, 強制選択項目上でのBCBによるサンドバッグの識別が, 症状妥当性試験ロジックで可能かどうかを検証した。
12個のモデルドメインの細胞のうち0個がサンドバッグ指導下において有意に低い性能を示した。
本研究では, 位置分布シフトは, このモデルスケールでのインジェクションアンダーパフォーマンスの検出において, 精度以下よりも効果的な行動シグネチャである可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting sandbagging--the deliberate underperformance on capability evaluations--is an open problem in AI safety. We tested whether symptom validity testing (SVT) logic from clinical malingering detection could identify sandbagging through below-chance performance (BCB) on forced-choice items. In a pre-registered pilot at the 7-9 billion parameter instruction-tuned scale (3 models, 4 MMLU-Pro domains, 4 conditions, 500 items per cell, 24,000 total trials), the plausibility gate failed. Zero of 12 model-domain cells showed significant below-chance performance under sandbagging instruction. Exploratory analyses revealed three qualitatively distinct failure modes. Qwen-2.5-7B and Phi-3.5-mini largely ignored the sandbagging instruction, with 62-88% response identity with the honest baseline. Llama-3-8B complied substantially but implemented underperformance as a positional heuristic, collapsing its response distribution onto middle-alphabet options (E at 31.8%, F at 26.1%) regardless of where the correct answer fell. This produced accuracy boosts of up to 33 percentage points when the correct answer coincidentally occupied the model's preferred position. An explicit anti-task instruction ("pick the least likely answer") drove two of three models below chance, with accuracy as low as 0.024. The capability for answer-aware avoidance therefore exists but is not activated by "deliberately underperform." BCB did not fail as a logical marker of answer-aware avoidance. It was not observed in this regime because the model showing the largest behavioural shift exhibited behaviour consistent with a position-dominant response policy rather than content-aware answer avoidance. We propose that positional-distribution shift may be a more effective behavioural signature than below-chance accuracy for detecting prompted underperformance at this model scale.
- Abstract(参考訳): サンドバッグの検出 — 能力評価の意図的な過小評価 — は、AI安全性において、オープンな問題である。
臨床奇形検出による症状妥当性検査 (SVT) のロジックが, 強制選択項目に対するBCBによるサンドバッグの識別に有用かどうかを検討した。
7-90億のパラメータ命令チューニングスケールで事前登録されたパイロット(3モデル、4つのMMLU-Proドメイン、4つの条件、1つのセル500項目、24,000のトライアル)では、検証ゲートが失敗した。
12のモデルドメイン細胞がゼロで,サンドバッグ指導下では有意に低い性能を示した。
探索分析では、3つの定性的に異なる障害モードが明らかになった。
Qwen-2.5-7BとPhi-3.5-miniは、素直なベースラインと62-88%の応答アイデンティティを持つサンドバッグの命令を無視した。
Llama-3-8Bは、位置ヒューリスティック(英語版)として性能を低下させ、応答分布を中間アルファベットのオプション(Eは31.8%、Fは26.1%)に分解した。
これにより、正解がモデルが好む位置を同時に占有すると、最大33ポイントの精度が向上した。
明確なアンチタスク命令("pick the least likely answer")は3つのモデルのうち2つを確率以下に駆動し、精度は0.024まで低下した。
したがって、回答を意識する回避能力は存在するが、"deliberately underperform"によってアクティベートされない。
BCBは、応答認識回避の論理的マーカーとして失敗しなかった。
最大の行動変化を示すモデルが、コンテンツ認識応答回避ではなく、位置優先応答ポリシーと整合した行動を示したため、この体制では観察されなかった。
本研究では, 位置分布シフトは, このモデルスケールでのインジェクションアンダーパフォーマンスの検出において, 精度以下よりも効果的な行動シグネチャである可能性が示唆された。
関連論文リスト
- Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - Breaking Bad: Interpretability-Based Safety Audits of State-of-the-Art LLMs [12.500730166535105]
我々は8つのオープンソース大言語モデル(LLM)の総合的、解釈可能性駆動型ジェイルブレイク監査について述べる。
安全でない動作概念に対して最適なアクティベーション・ステアリング係数を同定する2段階グリッド探索アルゴリズムを提案する。
本研究は,系統的安全監査のための強力なツールとして,解釈可能性に基づくステアリングを確立し,その二重利用リスクを強調した。
論文 参考訳(メタデータ) (2026-04-22T16:51:49Z) - Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs [5.478971182058342]
安全評価はほとんどの場合、プロンプトベースのペルソナのみを研究する。
プロンプトとアクティベーションのステアリングは *different*,アーキテクチャに依存した脆弱性プロファイルを公開します。
論文 参考訳(メタデータ) (2026-04-13T07:34:02Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model [50.29667251847595]
モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。
本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
論文 参考訳(メタデータ) (2026-04-01T02:42:41Z) - Mind the Performance Gap: Capability-Behavior Trade-offs in Feature Steering [0.0]
本研究では,目標動作の制御に成功しても,機能ステアリング手法がモデル性能を著しく低下させることを示す。
これらの知見は,タスク性能を犠牲にできない実運用における現在の機能ステアリング手法の限界を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-02-03T21:44:19Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。