論文の概要: The Attentional White Bear Effect in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2605.28639v1
- Date: Wed, 27 May 2026 15:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.184972
- Title: The Attentional White Bear Effect in Transformer Language Models
- Title(参考訳): 変圧器言語モデルにおける意図的ホワイトベア効果
- Authors: Rebecca Ramnauth, Brian Scassellati,
- Abstract要約: 本研究では,抑制が内部表現を抑制するのか,単に表現を抑制するのかを検討する。
禁止された概念は、抑圧下の隠された表現から非常に回復可能であることが判明した。
その結果,行動的アライメントと表現的アライメントの根本的なギャップが明らかになった。
- 参考スコア(独自算出の注目度): 1.4824891788575416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based suppression is widely used to prevent language models from generating prohibited content, yet it remains unclear whether suppression reduces internal representation or merely suppresses expression. We investigate this question through representational probing, attention analysis, and behavioral semantic leakage experiments across multiple transformer models. We find that prohibited concepts remain highly recoverable from hidden representations under suppression, continue to influence attention routing, and measurably shape downstream generations despite successful lexical avoidance. These effects persist across pooling strategies, indirect semantic controls, and multiple model families. Our results expose a fundamental gap between behavioral and representational alignment.
- Abstract(参考訳): 命令に基づく抑圧は、言語モデルが禁止コンテンツを生成するのを防ぐために広く用いられているが、抑制が内部表現を減少させるのか、単に表現を抑圧するだけなのかは定かではない。
本稿では,複数変圧器モデルを対象とした表現探索,注意分析,行動意味漏洩実験を通じて,この問題を考察する。
制限された概念は抑制下の隠蔽表現から高度に回復可能であり、注意経路に影響し続け、語彙的回避が成功したにもかかわらず下流世代を計測可能な形にしている。
これらの効果は、プーリング戦略、間接的なセマンティックコントロール、複数のモデルファミリーにまたがって持続する。
その結果,行動的アライメントと表現的アライメントの根本的なギャップが明らかになった。
関連論文リスト
- Monotonicity as an Architectural Bias for Robust Language Models [9.84177443010824]
大規模言語モデル(LLM)は、敵のプロンプトやジェイルブレイク攻撃の下で不安定な振る舞いを示すことが知られている。
トランスフォーマーに基づく言語モデルのロバスト性向上のためのアーキテクチャ的帰納バイアスとしての単調性について検討する。
論文 参考訳(メタデータ) (2026-02-02T19:03:19Z) - Dual Attention Guided Defense Against Malicious Edits [70.17363183107604]
本稿では,DANP(Dual Attention-Guided Noise Perturbation)免疫法を提案する。
本手法は,悪意ある編集に対する印象的な免疫力を示し,その手法が最先端の性能を達成することを実証した。
論文 参考訳(メタデータ) (2025-12-16T12:01:28Z) - Gumbel Counterfactual Generation From Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Rethinking harmless refusals when fine-tuning foundation models [0.8571111167616167]
本研究では,Large Language Models (LLMs) における微調整が,望ましくない振る舞いを隠蔽するだけでなく,効果的に緩和する程度について検討する。
ここでは、モデルが推論トレースの生成を止めるか、最終的なアウトプットの非倫理的な性質を損なうような倫理的推論トレースを生成するかのどちらかである。
論文 参考訳(メタデータ) (2024-06-27T22:08:22Z) - Refusal in Language Models Is Mediated by a Single Direction [4.532520427311685]
リファリングは1次元のサブスペースによって媒介され、最大72Bのパラメータを持つ13の人気のオープンソースチャットモデルにまたがる。
そこで本研究では,他の機能に最小限の影響を伴って拒絶を手術的に無効にする,新しいホワイトボックス・ジェイルブレイク法を提案する。
論文 参考訳(メタデータ) (2024-06-17T16:36:12Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。