論文の概要: Semantic Gravity Wells: Why Negative Constraints Backfire
- arxiv url: http://arxiv.org/abs/2601.08070v1
- Date: Mon, 12 Jan 2026 23:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.980315
- Title: Semantic Gravity Wells: Why Negative Constraints Backfire
- Title(参考訳): Semantic Gravity Wells: 負の制約がバックファイアする理由
- Authors: Shailesh Rana,
- Abstract要約: 負の制約("Do not use word X"という形式の命令)は、大きな言語モデルにおける命令追従能力の基本的なテストである。
本稿では, 負の命令失敗を総合的に調査する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negative constraints (instructions of the form "do not use word X") represent a fundamental test of instruction-following capability in large language models. Despite their apparent simplicity, these constraints fail with striking regularity, and the conditions governing failure have remained poorly understood. This paper presents the first comprehensive mechanistic investigation of negative instruction failure. We introduce semantic pressure, a quantitative measure of the model's intrinsic probability of generating the forbidden token, and demonstrate that violation probability follows a tight logistic relationship with pressure ($p=σ(-2.40+2.27\cdot P_0)$; $n=40{,}000$ samples; bootstrap $95%$ CI for slope: $[2.21,,2.33]$). Through layer-wise analysis using the logit lens technique, we establish that the suppression signal induced by negative instructions is present but systematically weaker in failures: the instruction reduces target probability by only 5.2 percentage points in failures versus 22.8 points in successes -- a $4.4\times$ asymmetry. We trace this asymmetry to two mechanistically distinct failure modes. In priming failure (87.5% of violations), the instruction's explicit mention of the forbidden word paradoxically activates rather than suppresses the target representation. In override failure (12.5%), late-layer feed-forward networks generate contributions of $+0.39$ toward the target probability -- nearly $4\times$ larger than in successes -- overwhelming earlier suppression signals. Activation patching confirms that layers 23--27 are causally responsible: replacing these layers' activations flips the sign of constraint effects. These findings reveal a fundamental tension in negative constraint design: the very act of naming a forbidden word primes the model to produce it.
- Abstract(参考訳): 負の制約("Do not use word X"という形式の命令)は、大きな言語モデルにおける命令追従能力の基本的なテストである。
その明らかな単純さにもかかわらず、これらの制約は顕著な規則性で失敗し、失敗を統治する条件はいまだに理解されていない。
本稿では, 負の命令失敗を総合的に調査する。
モデル固有のトークン生成確率の定量的な尺度であるセマンティック・プレッシャを導入し、違反確率は圧力(p=σ(-2.40+2.27\cdot P_0)$; $n=40{,}000$ sample; bootstrap $95%$ CI for slope: $[2.21,2.33]$)との厳密なロジスティックな関係に従うことを示した。
ロジットレンズ技術を用いた層解析により、負の命令によって誘導される抑制信号は存在するが、失敗時に体系的に弱くなることが判明した。
この非対称性を、機械的に異なる2つの障害モードにトレースする。
プリミング障害(87.5%の違反)では、ターゲット表現を抑えるのではなく、パラドックス的に禁止された単語の明示的な言及が活性化される。
オーバーライド障害(12.5%)では、遅延層フィードフォワードネットワークは目標確率に対して$+0.39$のコントリビューションを生成する。
アクティベーションパッチは、レイヤ23-27が因果関係があることを確認する。
これらの発見は、負の制約設計における根本的な緊張を浮き彫りにしている。
関連論文リスト
- Illusions of reflection: open-ended task reveals systematic failures in Large Language Models' reflective reasoning [0.6372261626436676]
「リフレクション」はゴールとその制約に結びついているが、人間のリフレクティブ推論と等価か?
クローズドエンドタスクの以前の作業は、自己補正の限界を隠蔽しながら、'リフレクション'を効果的に見せることができる。
ファーストパス性能は貧弱であり、リフレクションは緩やかな利得しか得られない。
このようなメカニズムがモデル自体でインスタンス化されるまでは、信頼性のあるパフォーマンスには制約を強制する外部構造が必要です。
論文 参考訳(メタデータ) (2025-10-21T03:24:21Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。
次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。
C=e(log H)1-Omega(1)$。
論文 参考訳(メタデータ) (2025-02-18T02:52:00Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Releasing Inequality Phenomenon in $\ell_{\infty}$-norm Adversarial Training via Input Gradient Distillation [66.5912840038179]
最近の研究では、(ell_infty)-norm対逆訓練(ell_infty)-AT)が不均一な入力勾配を誘導することが明らかとなった。
この現象は(ell_infty)-norm-norm訓練されたモデルを標準訓練モデルよりも脆弱にする。
本稿では,不等式を$ell_infty$-ATで解放するために,IGD (Input Gradient Distillation) という簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-16T09:23:42Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z) - Using reinforcement learning to autonomously identify sources of error
for agents in group missions [0.22499166814992436]
我々は、人工知能が、その原因を前述のように特定するためのアクションプランを自律的に作成できるかどうかについて考察する。
そこで我々は,Qテーブル強化学習を用いた行動計画を立てた。
驚くべきことに、強化学習によって生成された最適なアクションプランは、問題を特定するための人間的なソリューションを示しました。
論文 参考訳(メタデータ) (2021-07-20T02:40:19Z) - Exponential Error Suppression for Near-Term Quantum Devices [0.0]
NISQ時代には、最小のQECでさえ採用するために必要な複雑さと規模は禁じられている。
観測可能な天体の期待値を推定する重要な場合において、実効的な指数的抑制を達成できることが示される。
論文 参考訳(メタデータ) (2020-11-11T18:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。