論文の概要: Reading the Finetuning Prior: Verbatim Content Recovery via Contrastive Decoding Diffing
- arxiv url: http://arxiv.org/abs/2605.25902v2
- Date: Tue, 02 Jun 2026 12:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.060779
- Title: Reading the Finetuning Prior: Verbatim Content Recovery via Contrastive Decoding Diffing
- Title(参考訳): ファインタニング前の読み方:コントラストデコードディッフィングによるVerbatimコンテンツリカバリ
- Authors: Michał Brzozowski, Zuzanna Dubanowska, Enrico Cassano, Neo Christopher Chung,
- Abstract要約: Contrastive Decoding Diffing (CDD) は、出力レベルのロジット分布のみを演算し、ウェイトアクセスがなく、層選択がなく、モデルごとのチューニングもできないモデル拡散法である。
単一のデフォルト設定は、4つのアーキテクチャにまたがって組み込まれた事実を冗長に復元する。
我々は、実際のドメインの微調整設定を検証し、単一データセット以外のすべてのCoT変種に対してほぼ完全な回復を実現し、混合データセット設定で4つのデータセット全てを正しく識別する。
- 参考スコア(独自算出の注目度): 1.9599274203282298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Narrowly finetuned language models memorize implanted content verbatim, but auditing what a deployed model has been taught, without access to its weights or training data, remains an open challenge. Recent work shows that activation differences between base and finetuned models carry readable traces of the finetuning domain; the state-of-the-art Activation Difference Lens (ADL) recovers a vague domain-level description but requires full "white-box" access to model internals. We introduce Contrastive Decoding Diffing (CDD), a model diffing method that operates on output-level logit distributions only, with no weight access, no layer selection, and no per-model tuning, yet recovers implanted facts. CDD consists of three ideas: bypassing the chat template to expose the raw finetuning prior, seeding generation with maximally vague pre-fills, and amplifying the logit-space difference between finetuned and base models at each decoding step. A single default configuration recovers implanted facts verbatim -- exact drug names, vote counts, physical measurements, and procedural details -- across four architectures (1B--32B parameters), uniformly outperforming ADL despite less access and running ~170x faster. Furthermore, CDD surfaces unintended data pipeline artifacts: a fictional persona introduced by the LLM data generator via mode collapse leaked into model weights and was extracted by CDD, constituting to our knowledge the first demonstrated end-to-end fingerprinting chain from data generator artifact to model weights to recovered output. We validate on real-domain finetuning settings, achieving near-perfect recovery across all single-dataset non-CoT variants and correctly identifying all four datasets in the mixed-dataset setting. CDD's success as a grey-box method outperforming white-box baselines underscores its practical utility for transparency and accountability in AI systems.
- Abstract(参考訳): わずかに微調整された言語モデルは、埋め込みされたコンテンツを冗長に記憶するが、その重みやトレーニングデータにアクセスせずに、デプロイされたモデルが教えたことを監査することは、依然としてオープンな課題である。
最近の研究は、ベースモデルと微調整モデルのアクティベーションの違いが微調整ドメインの読みやすいトレースを担っていることを示している; 最先端のアクティベーション差分レンズ(ADL)は曖昧なドメインレベルの記述を回復するが、モデル内部への完全な「ホワイトボックス」アクセスを必要とする。
Contrastive Decoding Diffing (CDD) は、出力レベルのロジット分布のみを演算し、ウェイトアクセスがなく、層選択がなく、モデルごとのチューニングもできないモデル微分法である。
CDDは、3つのアイデアで構成されている: チャットテンプレートをバイパスして、生の微調整前の情報を公開し、最大であいまいなプリフィルでシード生成し、デコードステップごとに微調整されたモデルとベースモデルのロジト空間差を増幅する。
単一のデフォルト設定では、4つのアーキテクチャ(1B-32Bパラメータ)にまたがる、正確な薬物名、投票数、物理的な測定、手続きの詳細など、埋め込みされた事実を冗長に復元する。
さらに、CDDは意図しないデータパイプラインアーティファクトを表面化する: LLMデータジェネレータによって導入された架空のペルソナは、モード崩壊によってモデルウェイトに流出し、CDDによって抽出された。
我々は、実際のドメインの微調整設定を検証し、単一データセット以外のすべてのCoT変種に対してほぼ完全な回復を実現し、混合データセット設定で4つのデータセット全てを正しく識別する。
ホワイトボックスベースラインを上回るグレーボックスメソッドとしてのCDDの成功は、AIシステムにおける透明性と説明責任の実践的有用性を示している。
関連論文リスト
- When Shared Knowledge Hurts: Spectral Over-Accumulation in Model Merging [39.696384608482255]
SVC(Singular Value)は、サブスペースの重なり合いを定量化し、特異値を再スケールしてバランスの取れたスペクトルを復元するトレーニングフリーでデータフリーな後処理手法である。
SVCは、強力なマージベースラインを一貫して改善し、ビジョンと言語ベンチマーク間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-05T10:52:36Z) - Visual Disentangled Diffusion Autoencoders: Scalable Counterfactual Generation for Foundation Models [1.3535770763481902]
ファンデーションモデルは、堅牢なゼロショット機能にもかかわらず、急激な相関と「クリーバーハンズ」戦略に弱いままである。
本研究では,凍結基盤モデルと解離辞書学習を統合した新しいフレームワークであるVisual Disentangled Diffusion Autoencoders (DiDAE)を提案する。
DiDAEはまず、不整合辞書の解釈可能な不整合方向への基礎モデルの埋め込みを編集し、拡散オートエンコーダを介してデコードする。
論文 参考訳(メタデータ) (2026-01-29T15:25:37Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Generative Modeling from Black-box Corruptions via Self-Consistent Stochastic Interpolants [38.33840161443282]
元のデータの生成モデルは、分布のレベルで逆問題を解決する必要がある。
補間子に基づく新しい手法を提案する。
自然画像処理と科学的再構成における逆問題に対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-12-11T17:53:38Z) - PrefixNLI: Detecting Factual Inconsistencies as Soon as They Arise [60.63315470285562]
MiniTruePrefixesは、テキストプレフィックスよりも事実上の矛盾をよりよく検出する、新しい特殊モデルである。
制御されたデコードフレームワークにMiniTruePrefixesを組み込むことで,抽象的な要約における現実の一貫性が大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-11-03T09:07:44Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Continual learning with task specialist [2.8830182365988923]
破滅的な忘れと限定されたラベル付きデータの問題に対処するために,タスクスペシャリストによる連続学習(CLTS)を提案する。
モデルはタスクスペシャリスト(T S)とタスク予測器(T P)と、事前訓練された安定拡散(SD)モジュールで構成される。
3つの実世界のデータセットで行った4つのSOTAモデルとの比較研究により、提案モデルが選択されたベースラインすべてより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-26T12:59:09Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。