論文の概要: Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance
- arxiv url: http://arxiv.org/abs/2605.01699v3
- Date: Thu, 07 May 2026 15:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:05.963735
- Title: Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance
- Title(参考訳): Probe-Geometry Alignment: シークエンス・メモリ化符号の削除
- Authors: Anamika Paul Rupa, Anietie Andy,
- Abstract要約: 最近の攻撃は、大規模言語モデルの振る舞いの学習が、敵対的プローブによって内部の痕跡を復元可能であることを示している。
我々は,この保留地を特徴付けるとともに,測定可能な機能コストを伴わずに,外科的に除去できることを示す。
- 参考スコア(独自算出の注目度): 0.03580891736370874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent attacks show that behavioural unlearning of large language models leaves internal traces recoverable by adversarial probes. We characterise where this retention lives and show it can be surgically removed without measurable capability cost. Our central protocol is a leave-one-out cross-sequence probe that tests whether a memorisation signature generalises across held-out sequences. The signature is real and consistent across scale: memorisation-specific gaps of +0.32, +0.19, +0.30 on Pythia-70M, GPT-2 medium, and Mistral-7B; on Pythia-70M, the random-initialisation control collapses to -0.04 at the deepest layer where the pretrained signature peaks. The probe direction is causally separable from recall -- projecting it out collapses the signature locally (+0.44 -> -0.19) while behavioural recall barely changes -- and a probe trained on naturally memorised content does not classify fine-tuning-injected secrets, marking two representationally distinct regimes. We then introduce probe-geometry alignment (PGA), a surgical erasure that aligns activations along the probe's live readout direction at each depth. PGA drives the cross-sequence probe below random chance at all four scales tested (toy depth-4: 0.17; Pythia-70M: 0.07; Mistral-7B: 0.45; GPT-2 medium: 0.06 via MD-PGA k=2) and remains robust to six adversarial probe variants. Against a re-fitting attacker who trains a fresh probe on PGA-treated activations, we extend PGA adversarially, defeating the re-fit probe at every memorisation-relevant depth while preserving five zero-shot capability benchmarks within 2.8 percentage points per task (mean Δacc = +0.2pp). The cross-sequence signature is a real, causally separable, regime-specific property of pretrained representations -- removable below chance with a single rank-one intervention per depth at no measurable capability cost.
- Abstract(参考訳): 最近の攻撃は、大規模言語モデルの振る舞いの学習が、敵対的プローブによって内部の痕跡を復元可能であることを示している。
我々は,この保留地を特徴付けるとともに,測定可能な機能コストを伴わずに,外科的に除去できることを示す。
我々の中心的プロトコルは、メモリ化署名が保持されたシーケンス間で一般化するかどうかを検査する、一対一のクロスシーケンスプローブである。
メモ化特異的なギャップは、Pythia-70M, GPT-2 medium, Mistral-7Bで+0.32, +0.19, +0.30であり、Pythia-70Mでは、事前訓練された署名がピークとなる最深層でランダム初期化制御が-0.04に崩壊する。
プローブの方向はリコールから因果的に分離可能であり(+0.44 -> -0.19)、行動的リコールはほとんど変化しない。
次に、各深さでプローブのライブ読み出し方向に沿ってアクティベーションを整列させる外科的消去であるプローブ・ジオメトリ・アライメント(PGA)を導入する。
PGAは、試験された4つの尺度(トイディープ4: 0.17、ピチア70M: 0.07、ミストラル7B: 0.45、GPT-2メディア: 0.06 から MD-PGA k=2)のランダムな確率以下でクロスシーケンスプローブを駆動する。
PGA処理されたアクティベーションに対する新しいプローブを訓練する再適合攻撃に対して、我々はPGAを逆方向に拡張し、各記憶深度で再適合プローブを破り、1タスクあたり2.8ポイント(平均Δacc = +0.2pp)で5つのゼロショット能力ベンチマークを保持する。
クロスシーケンスシグネチャは、本当の、因果的に分離可能で、事前訓練された表現のシステマティックな特性である。
関連論文リスト
- Architecture Determines Observability in Transformers [0.0]
自己回帰変換器は自信のあるエラーを犯すが、アクティベーションモニタリングは、モデルが出力信頼が露呈しない内部信号を保持する場合にのみ、それらをキャッチできる。
本研究では,凍結中層活性化による判定品質の線形可読性として可観測性を定義した。
信頼制御は、平均して6つのファミリーで13のモデルで57.7%の生プローブ信号を吸収する。
論文 参考訳(メタデータ) (2026-04-27T02:39:02Z) - The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring [0.0]
本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング制御結合のドメイン間挙動測定を紹介する。
電池依存キャリブレーションは、単調低下(Q)、単調上昇(GPT-5.4)、平(Gemma)を含む。
発見は、独立なType-2 SDTアプローチと構造的に収束し、予備的なクロスメタルキャリブレーションを提供する。
論文 参考訳(メタデータ) (2026-04-17T05:15:15Z) - Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling [0.0]
線形プローブは、言語モデルが「知っている」出力をいつ生成するかを検出する。
複数層からのプローブをアンサンブルに結合することで,単層プローブが故障しても高い性能が得られることを示す。
論文 参考訳(メタデータ) (2026-04-15T01:21:52Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。