論文の概要: Fine-Tuning Integrity for Modern Neural Networks: Structured Drift Proofs via Norm, Rank, and Sparsity Certificates
- arxiv url: http://arxiv.org/abs/2604.04738v1
- Date: Mon, 06 Apr 2026 15:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.240241
- Title: Fine-Tuning Integrity for Modern Neural Networks: Structured Drift Proofs via Norm, Rank, and Sparsity Certificates
- Title(参考訳): 現代ニューラルネットワークのための微調整積分:ノルム・ランク・スパーシティー証明書による構造化ドリフト証明
- Authors: Zhenhang Shang, Kani Chen,
- Abstract要約: ファインチューニングは現在、大規模なニューラルネットワークを適用するための主要な方法であるが、新たな整合性リスクも導入されている。
信頼できない当事者は、バックドアを挿入したり、安全行動を変更したり、小さな更新のみを主張しながらモデルの大きな部分を上書きしたりできる。
制御モデル進化のセキュリティ目標としてFTI(Fin-Tuning Integrity)を導入する。
- 参考スコア(独自算出の注目度): 3.333639687907171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is now the primary method for adapting large neural networks, but it also introduces new integrity risks. An untrusted party can insert backdoors, change safety behavior, or overwrite large parts of a model while claiming only small updates. Existing verification tools focus on inference correctness or full-model provenance and do not address this problem. We introduce Fine-Tuning Integrity (FTI) as a security goal for controlled model evolution. An FTI system certifies that a fine-tuned model differs from a trusted base only within a policy-defined drift class. We propose Succinct Model Difference Proofs (SMDPs) as a new cryptographic primitive for enforcing these drift constraints. SMDPs provide zero-knowledge proofs that the update to a model is norm-bounded, low-rank, or sparse. The verifier cost depends only on the structure of the drift, not on the size of the model. We give concrete SMDP constructions based on random projections, polynomial commitments, and streaming linear checks. We also prove an information-theoretic lower bound showing that some form of structure is necessary for succinct proofs. Finally, we present architecture-aware instantiations for transformers, CNNs, and MLPs, together with an end-to-end system that aggregates block-level proofs into a global certificate.
- Abstract(参考訳): ファインチューニングは現在、大規模なニューラルネットワークを適用するための主要な方法であるが、新たな整合性リスクも導入されている。
信頼できない当事者は、バックドアを挿入したり、安全行動を変更したり、小さな更新のみを主張しながらモデルの大きな部分を上書きしたりできる。
既存の検証ツールでは、推論の正確性やフルモデルの証明に重点を置いており、この問題には対処していない。
制御モデル進化のセキュリティ目標としてFTI(Fin-Tuning Integrity)を導入する。
FTIシステムは、細調整されたモデルが、ポリシー定義ドリフトクラス内でのみ信頼されたベースと異なることを証明している。
本稿では,これらのドリフト制約を強制するための新しい暗号プリミティブとして,Sccinct Model Difference Proofs (SMDP)を提案する。
SMDPは、モデルのアップデートがノルムバウンド、ローランク、スパースであることのゼロ知識証明を提供する。
検証コストは、モデルのサイズではなく、ドリフトの構造にのみ依存する。
ランダムなプロジェクション、多項式のコミットメント、ストリーミング線形チェックに基づく具体的なSMDP構成を与える。
また、簡潔な証明にはある種の構造が必要であることを示す情報理論の下界も証明する。
最後に,変圧器,CNN,MPPに対して,ブロックレベルの証明をグローバル証明書に集約するエンドツーエンドシステムとともに,アーキテクチャ対応のインスタンス化を提案する。
関連論文リスト
- CREDIT: Certified Ownership Verification of Deep Neural Networks Against Model Extraction Attacks [54.04030169323115]
我々は、モデル抽出攻撃(MEA)に対する認証された所有権検証であるCREDITを紹介する。
DNNモデル間の類似性を定量化し、実用的な検証しきい値を提案し、このしきい値に基づいてオーナシップ検証を行うための厳密な理論的保証を提供する。
我々は、さまざまなドメインやタスクにまたがるいくつかの主流データセットに対するアプローチを広範囲に評価し、最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2026-02-23T23:36:25Z) - Provably Safe Model Updates [6.7544474785403885]
確実に安全なモデル更新のためのフレームワークを導入します。
パラメータ化された抽象領域(orthotopes, zonotopes)に問題を緩和すると、抽出可能な原始双対の定式化が得られることを示す。
これにより、安全なドメインにプロジェクションすることで、更新(使用するデータやアルゴリズムに依存しない)の効率的な認証が可能になる。
論文 参考訳(メタデータ) (2025-12-01T17:19:53Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning [37.024666077902225]
ユーザによってアップロードされた悪意のあるデータのごく一部は、微調整プロセスを微妙に操作できるため、アライメントが壊れたモデルになる。
既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。
textbfNeuron-textbfLevel textbfSafety textbfRealignmentを提案する。
論文 参考訳(メタデータ) (2024-12-17T02:59:04Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - VeriFlow: Modeling Distributions for Neural Network Verification [3.510536859655114]
フォーマル検証は、ニューラルネットワークの安全性と信頼性を保証するための有望な方法として登場した。
本稿では,検証手法が関心のあるデータ分布に限定できるように,フローベース密度モデルとしてVeriFlowアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-20T12:41:39Z) - Securing Graph Neural Networks in MLaaS: A Comprehensive Realization of Query-based Integrity Verification [68.86863899919358]
我々は機械学習におけるGNNモデルをモデル中心の攻撃から保護するための画期的なアプローチを導入する。
提案手法は,GNNの完全性に対する包括的検証スキーマを含み,トランスダクティブとインダクティブGNNの両方を考慮している。
本稿では,革新的なノード指紋生成アルゴリズムを組み込んだクエリベースの検証手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T03:17:05Z) - Multi-domain Learning for Updating Face Anti-spoofing Models [17.506385040102213]
本稿では,MD-FASの新しいモデルを提案する。
まず,スプーフ領域推定器(SRE)と呼ばれるシンプルだが効果的なモジュールを考案し,スプーフ画像中のスプーフトレースを同定する。
複数の出力や低解像度のバイナリマスクを生成するスプーフトレースを推定する以前の研究とは異なり、SREは教師なしの方法で1つの詳細なピクセルワイド推定を生成する。
論文 参考訳(メタデータ) (2022-08-23T18:28:34Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。