論文の概要: Don't Think of the White Bear: Ironic Negation in Transformer Models Under Cognitive Load
- arxiv url: http://arxiv.org/abs/2511.12381v1
- Date: Sat, 15 Nov 2025 23:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.005941
- Title: Don't Think of the White Bear: Ironic Negation in Transformer Models Under Cognitive Load
- Title(参考訳): 白熊について考えるな:認知的負荷下での変圧器モデルにおける皮肉な否定
- Authors: Logan Mann, Nayan Saxena, Sarah Tandon, Chenhao Sun, Savar Toteja, Kevin Zhu,
- Abstract要約: do not mention $X$"のような否定命令は、人間の思考における$X$のアクセシビリティをパラドックス的に向上させる。
概念を抑えるには内部で活性化する必要があるか検討するが、これは避ける代わりにプライムリバウンドとなる可能性がある。
- 参考スコア(独自算出の注目度): 6.24904498966298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negation instructions such as 'do not mention $X$' can paradoxically increase the accessibility of $X$ in human thought, a phenomenon known as ironic rebound. Large language models (LLMs) face the same challenge: suppressing a concept requires internally activating it, which may prime rebound instead of avoidance. We investigated this tension with two experiments. \textbf{(1) Load \& content}: after a negation instruction, we vary distractor text (semantic, syntactic, repetition) and measure rebound strength. \textbf{(2) Polarity separation}: We test whether models distinguish neutral from negative framings of the same concept and whether this separation predicts rebound persistence. Results show that rebound consistently arises immediately after negation and intensifies with longer or semantic distractors, while repetition supports suppression. Stronger polarity separation correlates with more persistent rebound. Together, these findings, complemented by a circuit tracing analysis that identifies sparse middle-layer attention heads amplifying forbidden tokens while early layers suppress, link cognitive predictions of ironic rebound with mechanistic insights into long-context interference. To support future work, we release ReboundBench, a dataset of $5,000$ systematically varied negation prompts designed to probe rebound in LLMs.
- Abstract(参考訳): 例えば「$X$に言及しない」といった否定命令は、皮肉なリバウンド(英語版)として知られる、人間の思考における$X$のアクセシビリティをパラドックス的に向上させる。
大きな言語モデル(LLM)も同様の課題に直面している。概念を抑圧するには内部でアクティベートする必要がある。
我々はこの緊張を2つの実験で調べた。
textbf{(1) Load \& content}: 否定命令の後に、散文(セマンティック、構文、反復)を変え、リバウンド強度を測定する。
\textbf{(2) polarity separation}: モデルが同じ概念の負のフレーミングとニュートラルを区別するかどうか、またこの分離がリバウンド永続性を予測するかどうかをテストする。
結果は、リバウンドは否定の直後に一貫して発生し、長いまたは意味的な邪魔を伴って増大し、繰り返しは抑制をサポートすることを示している。
強い極性分離はより永続的なリバウンドと相関する。
これらの知見は、初期層は禁止トークンを増幅し、初期層は禁止トークンを増幅する回路追跡分析によって補完され、鉄のリバウンドの認知予測と長期環境干渉に関する機械的洞察をリンクする。
将来の作業をサポートするために、私たちは、LLMのリバウンドを調査するために設計された5000ドルの体系的に異なる否定プロンプトのデータセットであるReboundBenchをリリースした。
関連論文リスト
- From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Cyclic Ablation: Testing Concept Localization against Functional Regeneration in AI [0.0]
中心的な問題は、偽りのような望ましくない振る舞いが、削除できる局所関数であるかどうかである。
本研究は,スパースオートエンコーダ,ターゲットアブレーション,対人訓練を組み合わせることで,偽装の概念を排除しようと試みた。
局所化仮説とは裏腹に, 偽装は非常に弾力性があることが判明した。
論文 参考訳(メタデータ) (2025-09-23T23:16:11Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - BURN: Backdoor Unlearning via Adversarial Boundary Analysis [73.14147934175604]
Backdoor Unlearningは、モデル本来の機能を保持しながら、バックドア関連の情報を削除することを目的としている。
本稿では, 偽相関疎結合, プログレッシブデータリファインメント, モデル浄化を統合した新しい防御フレームワーク, BURNによるバックドア・アンラーニングを提案する。
論文 参考訳(メタデータ) (2025-07-14T17:13:06Z) - Wait, We Don't Need to "Wait"! Removing Thinking Tokens Improves Reasoning Efficiency [24.56015832583054]
高度な推論には、"Wait" や "Hmm" などのトークンによって信号される明示的な自己回帰が必要である。
推論中にこれらのトークンを抑えることで、明示的な自己回帰を無効にする、シンプルで効果的なアプローチであるNoWaitを提案する。
論文 参考訳(メタデータ) (2025-06-10T01:54:04Z) - Derailing Non-Answers via Logit Suppression at Output Subspace Boundaries in RLHF-Aligned Language Models [0.0]
モデル重みやプロンプトを変更することなく、センシティブなコンテンツに対する大言語モデル(LLM)の拒絶率を低減する手法を提案する。
特定のモデルの拒絶は、しばしばトークンの特定のトークンシーケンスによってもたらされた、という観察によって動機づけられた。
この結果から, 退避行動は, 生成過程の特定の点において, 退避部分空間をブロックすることによって回避できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-28T20:25:24Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - CoT-BERT: Enhancing Unsupervised Sentence Representation through Chain-of-Thought [3.0566617373924325]
本稿では,教師付き推論の進歩的思考を活用する革新的な手法であるCoT-BERTを提案する。
我々は、高度なコントラスト学習損失関数を開発し、新しいテンプレート認知戦略を提案する。
論文 参考訳(メタデータ) (2023-09-20T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。