論文の概要: Auditing Reasoning-Trace Memorization Claims after Unlearning with Head-Conditioned Canaries
- arxiv url: http://arxiv.org/abs/2605.18891v1
- Date: Sun, 17 May 2026 05:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.852894
- Title: Auditing Reasoning-Trace Memorization Claims after Unlearning with Head-Conditioned Canaries
- Title(参考訳): ヘッドコンディションドカナリアによる未学習児の聴取・追跡記録
- Authors: Yanhang Li, Zhichao Fan, Zexin Zhuang,
- Abstract要約: We audit a reading on DeepSeek-R1-Distill-Qwen-7B with LoRA-memorized fictional authors and NPO unlearning。
標準的な監査と並んで、安価な衛生チェックとしてデコード時テンプレートスワップを推奨する。
- 参考スコア(独自算出の注目度): 0.30586855806896046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluations of unlearning on reasoning models sometimes show a bypass pattern. The answer side looks unlearned, but the model's own thinking trace keeps emitting the forgotten content, and the gap is taken as evidence that the weights still remember. We audit this reading on DeepSeek-R1-Distill-Qwen-7B with LoRA-memorized fictional authors and NPO unlearning, conditioned on a six-token canary head. On one seed, swapping the thinking trace for a short non-canary prefill on the same weights drops the answer rate by as much as the bypass gap itself, whether the prefill mimics the training template or not. On a second seed the bypass gap shrinks rather than vanishing, and the prefill swap reverses direction and brings the answer rate to ceiling. A positive parser-split bypass gap thus does not by itself identify hidden weight-level memorization, and does not rule it out either. On a different distillate the same metric flips sign because the parser cannot find the closing tag. We recommend a decode-time template swap as a cheap sanity check alongside the canonical audit.
- Abstract(参考訳): 推論モデルによる未学習の評価は、時にはバイパスパターンを示す。
答え側は学習されていないように見えるが、モデル自身の思考の痕跡は忘れられたコンテンツを出力し続けており、そのギャップは重みがまだ記憶している証拠として捉えられている。
We audit this reading on DeepSeek-R1-Distill-Qwen-7B with LoRA-memorized fictional authors and NPO unlearning, conditioned on a six-token canary head。
1つのシードでは、思考トレースを同じ重みで短い非カナリアプリフィルに置き換えると、そのプリフィルがトレーニングテンプレートを模倣するかどうかに関わらず、その解答率をバイパスギャップ自体と同程度に低下させる。
第2シードでは、バイパスギャップは消滅せず縮小し、プリフィルスワップは方向を逆転し、応答率を天井に導く。
したがって、正のパーサーとスプリットのバイパスギャップは、それ自体が隠れた重みレベルの記憶を識別せず、それらも除外しない。
異なる蒸留液では、パーサーが閉タグを見つけることができないため、同じ計量が符号を反転させる。
標準的な監査と並んで、安価な衛生チェックとしてデコード時テンプレートスワップを推奨する。
関連論文リスト
- Learn by Surprise, Commit by Proof [0.0]
本稿では,自律的知識獲得のための自己学習後フレームワークを提案する。
通路が異常に高いパートーケン損失を発生させると、L SCPはそれをフラグ化し、モデルに自身の知識を明確にさせるQ&A連鎖を生成する。
学習強度は1つのパラメータ$r$で管理される。
論文 参考訳(メタデータ) (2026-04-02T12:17:10Z) - CompactRAG: Reducing LLM Calls and Token Overhead in Multi-Hop Question Answering [15.281365738928415]
既存のマルチホップRAGシステムは、各ステップで検索と推論を交互に行う。
オンライン推論からオフラインコーパス再構成を分離するフレームワークであるCompactRAGを提案する。
HotpotQA, 2WikiMultiHopQA, MuSiQue の実験では, CompactRAG がトークン消費を大幅に削減し,競争精度を向上することを示した。
論文 参考訳(メタデータ) (2026-02-05T14:52:06Z) - ReJump: A Tree-Jump Representation for Analyzing and Improving LLM Reasoning [29.544265034647434]
ReJumpは、中間的な問題解決ステップの木のノードへの訪問順序として推論トレースを表す。
我々は,2つのタスクに対して最先端のLarge Language Model (LRMs) を評価し,類似した精度のモデルが明確な推論行動を示すことを発見した。
学習戦略が推論をどう形成するかをより深く理解するために,ReJumpを用いて蒸留LRMを教師と比較し,CoTが推進するLLMとLRMを比較し,推論の事例数や強化学習が推論行動にどう影響するかを検討する。
論文 参考訳(メタデータ) (2025-11-30T10:39:53Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Derailing Non-Answers via Logit Suppression at Output Subspace Boundaries in RLHF-Aligned Language Models [0.0]
モデル重みやプロンプトを変更することなく、センシティブなコンテンツに対する大言語モデル(LLM)の拒絶率を低減する手法を提案する。
特定のモデルの拒絶は、しばしばトークンの特定のトークンシーケンスによってもたらされた、という観察によって動機づけられた。
この結果から, 退避行動は, 生成過程の特定の点において, 退避部分空間をブロックすることによって回避できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-28T20:25:24Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - Unsupervised Learning of Accurate Siamese Tracking [68.58171095173056]
分類枝と回帰枝の両方で時間対応を学習できる新しい教師なし追跡フレームワークを提案する。
トラッカーは、トラッカーネットやLaSOTのような大規模データセット上で、教師なしの手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2022-04-04T13:39:43Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。