論文の概要: Provably Safe Model Updates
- arxiv url: http://arxiv.org/abs/2512.01899v1
- Date: Mon, 01 Dec 2025 17:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.988477
- Title: Provably Safe Model Updates
- Title(参考訳): おそらく安全なモデルアップデート
- Authors: Leo Elmecker-Plakolm, Pierre Fasterling, Philip Sosnin, Calvin Tsay, Matthew Wicker,
- Abstract要約: 確実に安全なモデル更新のためのフレームワークを導入します。
パラメータ化された抽象領域(orthotopes, zonotopes)に問題を緩和すると、抽出可能な原始双対の定式化が得られることを示す。
これにより、安全なドメインにプロジェクションすることで、更新(使用するデータやアルゴリズムに依存しない)の効率的な認証が可能になる。
- 参考スコア(独自算出の注目度): 6.7544474785403885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-critical environments are inherently dynamic. Distribution shifts, emerging vulnerabilities, and evolving requirements demand continuous updates to machine learning models. Yet even benign parameter updates can have unintended consequences, such as catastrophic forgetting in classical models or alignment drift in foundation models. Existing heuristic approaches (e.g., regularization, parameter isolation) can mitigate these effects but cannot certify that updated models continue to satisfy required performance specifications. We address this problem by introducing a framework for provably safe model updates. Our approach first formalizes the problem as computing the largest locally invariant domain (LID): a connected region in parameter space where all points are certified to satisfy a given specification. While exact maximal LID computation is intractable, we show that relaxing the problem to parameterized abstract domains (orthotopes, zonotopes) yields a tractable primal-dual formulation. This enables efficient certification of updates - independent of the data or algorithm used - by projecting them onto the safe domain. Our formulation further allows computation of multiple approximately optimal LIDs, incorporation of regularization-inspired biases, and use of lookahead data buffers. Across continual learning and foundation model fine-tuning benchmarks, our method matches or exceeds heuristic baselines for avoiding forgetting while providing formal safety guarantees.
- Abstract(参考訳): 安全に重要な環境は本質的に動的である。
分散シフト、新たな脆弱性、進化する要件は、マシンラーニングモデルに継続的更新を要求する。
しかし、良心的なパラメータ更新でさえ、古典モデルの破滅的な忘れ込みや基礎モデルのアライメントドリフトなど、意図しない結果をもたらす可能性がある。
既存のヒューリスティックなアプローチ(例:正規化、パラメータ分離)はこれらの効果を軽減することができるが、更新されたモデルが要求されるパフォーマンス仕様を満たすことを証明できない。
モデル更新を確実に安全にするためのフレームワークを導入することで、この問題に対処する。
提案手法はまず,最大局所不変領域(LID)を演算する問題として,与えられた仕様を満たすためにすべての点が認証されたパラメータ空間内の連結領域を定式化する。
正確な最大 LID 計算は難解であるが、パラメータ化された抽象領域(orthotopes, zonotopes)に問題を緩和すると、抽出可能な原始-双対の定式化が得られることを示す。
これにより、安全なドメインにプロジェクションすることで、更新(使用するデータやアルゴリズムに依存しない)の効率的な認証が可能になる。
我々の定式化により、複数のほぼ最適なLIDの計算、正規化にインスパイアされたバイアスの導入、ルックアヘッドデータバッファの使用が可能になる。
連続学習および基礎モデルの微調整ベンチマーク全体において,我々の手法は,正式な安全保証を提供しながら忘れることを避けるため,ヒューリスティックな基準値に一致または超過する。
関連論文リスト
- Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler [67.24175911858312]
有害な微調整は、大規模な言語モデルのための微調整・アズ・ア・サービスに重大な安全性のリスクをもたらす。
Bayesian Data Scheduler (BDS) は、アタックシミュレーションを必要としない適応型チューニングステージ防衛戦略である。
BDSは、微調整データセットとアライメントデータセットに基づいて、各データポイントの安全属性の後方分布を学習する。
論文 参考訳(メタデータ) (2025-10-31T04:49:37Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - NLSR: Neuron-Level Safety Realignment of Large Language Models Against Harmful Fine-Tuning [37.024666077902225]
ユーザによってアップロードされた悪意のあるデータのごく一部は、微調整プロセスを微妙に操作できるため、アライメントが壊れたモデルになる。
既存の微調整攻撃に対抗する方法は、典型的にはかなりの計算資源を必要とする。
textbfNeuron-textbfLevel textbfSafety textbfRealignmentを提案する。
論文 参考訳(メタデータ) (2024-12-17T02:59:04Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Data-Driven Distributionally Robust Safety Verification Using Barrier Certificates and Conditional Mean Embeddings [0.24578723416255752]
問題を非現実的な仮定にシフトすることなく,スケーラブルな形式検証アルゴリズムを開発する。
問題を非現実的な仮定にシフトさせることなく,スケーラブルな形式検証アルゴリズムを開発するためには,バリア証明書の概念を用いる。
本稿では,2乗法最適化とガウス過程エンベロープを用いて効率よくプログラムを解く方法を示す。
論文 参考訳(メタデータ) (2024-03-15T17:32:02Z) - All models are local: time to replace external validation with recurrent
local validation [10.043347396280009]
MLモデルの一般化性を保証するため、外部検証がしばしば推奨される。
一般化性や、モデルの臨床的有用性に匹敵するものではない。
MLモデルの安全性やユーティリティを確立するには,外部検証が不十分である,と提案する。
論文 参考訳(メタデータ) (2023-05-05T00:48:23Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z) - Generalizing Variational Autoencoders with Hierarchical Empirical Bayes [6.273154057349038]
確率的生成モデルのための計算的に安定なフレームワークである階層的経験的ベイズオートエンコーダ(HEBAE)を提案する。
鍵となる貢献は2つであり、まず、符号化分布を階層的に優先することで、再構成損失関数の最小化と過正規化の回避とのトレードオフを適応的にバランスさせることで、利益を得る。
論文 参考訳(メタデータ) (2020-07-20T18:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。