論文の概要: CANARY: Zero-Label Detection of Fine-Tuning Contamination in Language Models
- arxiv url: http://arxiv.org/abs/2606.01695v1
- Date: Mon, 01 Jun 2026 05:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.378561
- Title: CANARY: Zero-Label Detection of Fine-Tuning Contamination in Language Models
- Title(参考訳): CANARY: 言語モデルにおける微調整汚染のゼロラベル検出
- Authors: Swapnil Parekh,
- Abstract要約: CANARYは、隠れた状態のみからのサプライチェーン汚染を検出し、検証し、優先順位付けし、修正するためのゼロラベルフレームワークである。
AUROC = 1.000 at 1% contamination, with zero false positives on beign fine-tuning and full robustness to style-matching and gradient-noise adapt attack。
- 参考スコア(独自算出の注目度): 1.3011345529764784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversaries can implant latent harmful behavior by poisoning as few as 1% of fine-tuning examples. The contamination is invisible to every output-level defense: harmful behavior lies dormant in the model's hidden-state geometry and does not appear in generated text until contamination exceeds 7.5%. We introduce CANARY (Contamination Auditor via Neural Activation Representation Yield), a zero-label checkpoint auditor that detects this hidden shift directly from two forward passes over an unlabeled prompt set. CANARY projects the hidden-state difference through a Sparse Autoencoder, filtering style noise to isolate meaningful semantic drift. It achieves AUROC = 1.000 at 1% contamination (95% CI = [0.997, 1.000]; Cohen's d = 3.28) across four model architectures and two training paradigms, 7.5x below where any output-level method fires, with zero false positives on benign fine-tuning and full robustness to style-matching and gradient-noise adaptive attacks. The same SAE feature basis drives a complete governance pipeline: SAE-filtered amplification surfaces latent harm at a 5x higher rate than standard generation; score-ranked prompts yield 4.2x red-teaming lift; and suppressing a handful of contamination-specific features at inference time reduces harm from 70% to 10% with no perplexity penalty. CANARY is the first zero-label framework to detect, verify, prioritize, and remediate supply-chain contamination from hidden states alone.
- Abstract(参考訳): 敵は中毒によって潜伏する有害な行動を移植でき、微調整例の1%にも満たない。
有害な振る舞いはモデルの隠れ状態の幾何学において休眠状態にあり、汚染が7.5%を超えるまで生成されたテキストには現れない。
CANary (Contamination Auditor via Neural Activation Representation Yield) は、ゼロラベルチェックポイント監査機であり、ラベルなしプロンプトセット上の2つのフォワードパスから直接この隠れシフトを検出する。
CANARYはスパースオートエンコーダを通じて隠された状態差を投影し、意味のあるセマンティックドリフトを識別するためにスタイルノイズをフィルタリングする。
AUROC = 1.000 at 1% contamination (95% CI = [0.997, 1.000]; Cohen's d = 3.28) across four model architectures and two training paradigms, 7.5x below where any output-level method fires, with zero false positives on beign fine-tuning and full robustness to style-matching and gradient-noise adapt attack。
SAE-filtered Amplification surfaces latent harm at a Standard generation; score-ranked prompts yield 4.2x red-teaming lift; and suppressing some contamination-specific features at inference time is reduce to 70% to 10% with no perplexity penalty。
CANARYは、隠れた状態のみからサプライチェーンの汚染を検出し、検証し、優先順位付けし、修正する最初のゼロラベルフレームワークである。
関連論文リスト
- SilentRetrieval: Hijacking Retrieval-Augmented Generation via Semantically-Preserving Adversarial Data Poisoning [1.0998907972211756]
SilentRetrievalは2段階のデータ中毒攻撃で、RAGシステムを敵対的な文書でハイジャックする。
SilentRetrievalは84.6%/81.3% HR@10、57.5%/54.8% ASR-LLM on Natural QuestionsとMS MARCOを達成している。
論文 参考訳(メタデータ) (2026-05-27T07:30:30Z) - The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation [28.17279842216215]
大規模言語モデル(LLM)は、幅広いタスクにまたがる印象的な推論能力を示している。
データ汚染はこれらの能力の客観的評価を損なう。
現在のアプローチは、このようなステルス性の汚染を確実に検出するのに苦労している。
そこで我々はZero-CoT Probe (ZCP) を提案する。
論文 参考訳(メタデータ) (2026-05-21T01:06:19Z) - Hallucination as an Anomaly: Dynamic Intervention via Probabilistic Circuits [6.667596224057802]
LLM残差ストリーム上のトラクタブル密度推定器として訓練された確率回路PCNETを提案する。
本手法は,実数多様体上の幾何学的異常として幻覚を検出する。
PCNETは、CoQA、SQuAD v2.0、TriviaQAのほぼ完全な幻覚検出を実現し、AUROCは99%に達する。
論文 参考訳(メタデータ) (2026-05-07T10:02:27Z) - HalluScan: A Systematic Benchmark for Detecting and Mitigating Hallucinations in Instruction-Following LLMs [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる顕著な機能を示している。
しかし、それらは幻覚に影響を受けやすい - 事実的に不正確で、提供されたコンテキストに反するコンテンツを生成したり、ユーザ指示に反する。
本稿では,72構成の幻覚検出と緩和を体系的に評価する総合ベンチマークフレームワークであるHaluScanを紹介する。
論文 参考訳(メタデータ) (2026-05-04T10:43:27Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Purify Unlearnable Examples via Rate-Constrained Variational Autoencoders [101.42201747763178]
未学習例(UE)は、正しくラベル付けされたトレーニング例に微妙な修正を加えることで、テストエラーの最大化を目指している。
我々の研究は、効率的な事前学習浄化法を構築するための、新しいゆがみ機構を提供する。
論文 参考訳(メタデータ) (2024-05-02T16:49:25Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Evading Deepfake-Image Detectors with White- and Black-Box Attacks [75.13740810603686]
一般的な法医学的アプローチは、ニューラルネットワークを訓練して、実際の合成内容と区別することを示します。
我々は,既存の画像生成装置の約0.95のLOC曲線(AUC)以下の領域を達成できる最先端の分類器に関する5つの攻撃事例研究を開発した。
また、ターゲット分類器にアクセスできないブラックボックス攻撃により、AUCを0.22に削減する。
論文 参考訳(メタデータ) (2020-04-01T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。