論文の概要: Option-Order Randomisation Reveals a Distributional Position Attractor in Prompted Sandbagging
- arxiv url: http://arxiv.org/abs/2604.26206v1
- Date: Wed, 29 Apr 2026 01:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.211573
- Title: Option-Order Randomisation Reveals a Distributional Position Attractor in Prompted Sandbagging
- Title(参考訳): プロンプテッドサンドバッグにおける配電位置トラクタのオプション次ランダム化
- Authors: Jon-Paul Cacioli,
- Abstract要約: 前任のパイロットは、ラマ-3-8Bが回避に答えるよりも、位置の崩壊としてサンドバッグの実施を促したことを知った。
このフォローアップは、臨界制御として巡回的なオプションオーダーのランダム化を加えた。
正解が優先位置Eを同時に占有すると、精度は72.1%に急上昇し、A位で4.3%に低下した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A predecessor pilot (Cacioli, 2026) found that Llama-3-8B implements prompted sandbagging as positional collapse rather than answer avoidance. However, fixed option ordering in MMLU-Pro left open whether this reflected a model-level position-dominant policy or dataset-level distractor structure. This pre-registered follow-up (3 models, 2,000 MMLU-Pro items, 4 conditions, 24,000 primary trials) added cyclic option-order randomisation as the critical control. The pre-registered item-level same-letter diagnostic did not confirm deterministic position-tracking (same-letter rate 37.3%, below the 50% threshold). However, pre-specified supporting analyses revealed that the response-position distribution under sandbagging was highly stable under complete content rotation (Pearson r = 0.9994; Jensen-Shannon divergence = 0.027, compared to 0.386 between honest and sandbagging conditions). Accuracy spiked to 72.1% when the correct answer coincidentally occupied the preferred position E, and fell to 4.3% at position A. The data provide strong evidence for a soft distributional attractor: under sandbagging instruction, the model enters a low-entropy response-position basin centred on E/F/G that is highly stable and largely content-invariant at the aggregate level. Qwen-2.5-7B served as a negative control (non-compliant, no distributional shift). These results provide evidence, at the 7-9 billion parameter scale, that response-position entropy is a promising black-box behavioural signature of this sandbagging mode.
- Abstract(参考訳): 前任のパイロット (Cacioli, 2026) は、ラマ-3-8B の実装は、答えの回避よりも位置の崩壊を招いた。
しかし、MMLU-Proの固定されたオプション順序付けは、モデルレベルの位置支配ポリシーやデータセットレベルのイントラクタ構造を反映するかどうかを放置した。
この事前登録されたフォローアップ(3モデル,2,000 MMLU-Pro項目,4条件,24,000 一次試験)は、臨界制御として巡回的オプションオーダーランダム化を加えた。
登録済みの項目レベルの同一文字診断では、決定論的位置追跡(サメレターレート37.3%、50%未満)は確認されなかった。
しかし, サンドバッグング条件下での応答位置分布は, 完全含量回転下で非常に安定であった(ピアソン r = 0.9994, Jensen-Shannon divergence = 0.027, 正当性およびサンドバッグング条件間の0.386)。
その結果, 正解が優先位置Eを同時に占有すると, 精度は72.1%に急上昇し, 4.3%に低下した。
Qwen-2.5-7Bは負の制御(非準拠、分布シフトなし)として機能した。
これらの結果は、7-90億のパラメータスケールにおいて、応答位置エントロピーがこのサンドバッグモードの有望なブラックボックスの挙動シグネチャであることを示す。
関連論文リスト
- Below-Chance Blindness: Prompted Underperformance in Small LLMs Produces Positional Bias Rather than Answer Avoidance [0.0]
我々は, 強制選択項目上でのBCBによるサンドバッグの識別が, 症状妥当性試験ロジックで可能かどうかを検証した。
12個のモデルドメインの細胞のうち0個がサンドバッグ指導下において有意に低い性能を示した。
本研究では, 位置分布シフトは, このモデルスケールでのインジェクションアンダーパフォーマンスの検出において, 精度以下よりも効果的な行動シグネチャである可能性が示唆された。
論文 参考訳(メタデータ) (2026-04-28T05:57:23Z) - Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - Entropy trajectory shape predicts LLM reasoning reliability: A diagnostic study of uncertainty dynamics in chain-of-thought [0.0]
本研究は,ステップごとの解答完了をサンプリングし,正当性を予測することによって,推論ステップ間の不確実性のダイナミクスの形状を把握できるかどうかを考察する。
エントロピー-軌道単調性(Entropy-trajectory monotonicity)を導入する。
論文 参考訳(メタデータ) (2026-03-19T14:17:16Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Bayesian Transformer for Probabilistic Load Forecasting in Smart Grids [0.0]
本研究では,3つの相補的不確実性機構をPatchTSTバックボーンに統合したベイズ変圧器フレームワークを提案する。
7段階のマルチクエンタリーピンボールロス予測ヘッドと、訓練後の等音波回帰キャリブレーションにより、鋭く、ほぼ一意にカバーされた予測間隔が生成される。
主要なベンチマーク(PJM, H=24h)では、BTは0.0289のCRPSを達成し、Deep Ensemblesより7.4%、決定論的LSTMより29.9%改善した。
論文 参考訳(メタデータ) (2026-03-09T02:39:51Z) - Evidence-based Distributional Alignment for Large Language Models [58.65469623911573]
LLM分布推定の忠実度とロバスト性を改善する証拠に基づくアライメント手法であるEvi-DAを提案する。
対象国が与えられた場合、Evi-DAは関連するWorld Values Survey項目とその回答分布を検索し、オプション毎に粗いヴェルツェル値シグネチャを予測し、国条件の回答分布を構造化形式で推測する。
論文 参考訳(メタデータ) (2026-03-03T03:34:06Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。